清华开源图文对话大模型!表情包解读有一手,奇怪的benchmark增加了_视点
什么,最懂表情包的中文开源大模型出现了??!
(资料图片)
就在最近,来自清华的一个叫VisualGLM-6B的大模型在网上传开了来,起因是网友们发现,它连表情包似乎都能解读!
像这个腊肠犬版蒙娜丽莎,它不仅准确理解了这是腊肠犬与蒙娜丽莎的“合体照”,还点出了这只是一幅虚构作品:
又像是这个正在出租车后熨衣斗的男子,它也一眼看出了“不对劲”的地方:
值得一提的是,在此前GPT-4刚发布时,网友们也同样将它用来测了测常识理解能力:
就如同弱智吧问题是大模型语言理解能力的benchmark一样,表情包简直就是大模型图片理解能力的benchmark。
要是它真能理解网友们奇奇怪怪的表情包,那AI简直没有什么不能get到的信息点了啊!
我们赶紧测试了一波,看看它究竟效果如何。
gif也能看懂,但解读太过正经
目前,VisualGLM-6B已经推出了网页端试玩版。
只需要在Hugging Face的试玩界面上传图片,再与它进行“对话”,它就能生成理解图片的结果:
先试试初级难度的表情包。
官方给出了几个问题示例,例如“描述一下这个场景”、“这是什么东西”、“这张图片描述了什么”,我们就先尝试一下这几个问题。
输入一只正在听歌的小猫,让VisualGLM-6B描述一下表情包中的场景:
还不错,VisualGLM-6B准确get了小猫享受音乐或使用电子设备这个过程!
再输入一个章鱼哥表情包,问它“这是什么东西”:
也没问题。看起来能拿给爸妈用了(手动狗头)。
再试试用吃饭小狗,让VisualGLM-6B解读一下这张图片描述了什么:
看起来初级表情包都没什么问题,是时候加大力度了。
上传一个gif试试?*眼似乎没有问题:
但再换一个gif试试就会发现,它似乎只理解了*帧图像,猜测是不是“主角在试图抓住或捕捉它”,但实际上只是在扔钞票:
与之前的一些图片理解AI不同,VisualGLM-6B在解读时会着重介绍表情包角色中的面部表情,例如“它看起来不舒服或者紧张”:
BUT!当我们再上一点难度,给表情包配上文字之后,它就无法理解表情包的含义了:
尤其是这种靠配文传达表情包精髓的,VisualGLM-6B就会开始展现“瞎解读”的功底:
如果图像拼接太多,它还会出现奇怪的bug,例如把摸鱼狗头人认成大鲨鱼:
而且,它在描述表情包的时候整体比较正经,不会解读图像以外的“用意”。
例如,有网友测试了一下经典的“熊猫人显卡”表情包:
以及周星驰的经典“我全都要”表情包:
显然VisualGLM-6B能大致理解图片的场景,但对于表情包的配文就无法理解了。
总结一下,对于包含经典作品角色的表情包,或是经过文字加工前的“原始”表情包,VisualGLM-6B能说出这个角色的名字,或是描述出其中的场景:
虽然也可以让它描述情绪,不过AI看出来的情绪,可能和最终表情包表达的情绪不太一样:
但一旦表情包加上了文字、或是被P进了新场景,VisualGLM-6B就会因为无法解读图片中文字的意思,而变得“看不懂梗”了。
△有时候还会解读错乱,例如狗看成猪
那么,拥有一部分解读表情包能力的VisualGLM-6B,究竟是什么来头?
多模态对话VisualGLM-6B,*只需8.7G显存
事实上,VisualGLM-6B并非专门为“表情包解读”而开发。
它是由智谱AI和清华大学KEG实验室打造的开源多模态对话模型,主要用于中文图像理解,解读表情包可以说只是它被开发出来的一个“副业”。
它的正经用法,一般是酱婶的:
提起这个团队,大家更熟悉的可能是ChatGLM-6B大模型。
后者此前我们有作介绍:
它是“清华系ChatGPT”的一员,2022年8月发布,共62亿规模参数,支持中英双语对话。
上线4天就突破6k star,目前已经近25k。
据介绍,VisualGLM-6B正是在ChatGLM-6B的基础上完成:
ChatGLM-6B负责它的语言模型部分,图像部分则通过训练BLIP2-Qformer构建起视觉模型与语言模型的“桥梁”。
因此,VisualGLM-6B整体模型共78亿参数。
具体而言,VisualGLM-6B的预训练在中英文权重相同的情况下,在30M高质量中文图文对和300M经过筛选的英文图文对上完成(来自CogView数据集)。
这一训练方法可以将视觉信息对齐到ChatGLM的语义空间。
微调阶段,VisualGLM-6B又在长视觉问答数据上训练,以生成符合人类偏好的答案。
与此同时,VisualGLM-6B由SwissArmyTransformer (简称“sat” ) 库训练,这是一个支持Transformer灵活修改、训练的工具库,支持Lora、P-tuning等参数高效微调方法。
最终,本项目既提供了HuggingFace接口,也提供了基于sat的接口。
要说VisualGLM-6B*的特点,便是结合模型量化技术,可以让大家在消费级的显卡上进行本地部署,INT4量化级别下*只需8.7G显存。
具体包含三种部署工具:
一是命令行Demo。执行命令:python cli_demo.py
然后程序便自动下载sat模型,大家就可以在命令行中进行交互式的对话了。
输入指示并回车即可生成回复,输入clear可以清空对话历史,输入stop终止程序。
二是基于Gradio的网页版Demo。
需要先安装Gradio:pip install gradio,然后下载并进入本仓库运行web_demo.py,最后在浏览器中打开系统输出的地址即可使用。
三是API部署。需要安装额外的依赖:pip install fastapi uvicorn,然后运行仓库中的api.py。
更多细节和推理、量化部分的方法就不赘述了,可戳参考链接[1]查看官方介绍。
需要注意的是,如官方所述,VisualGLM-6B正处于V1版本,视觉和语言模型的参数、计算量都较小,因此会出现相当多的已知局限性,像图像描述事实性/模型幻觉问题、图像细节信息捕捉不足,以及一些来自语言模型的局限性等等。
就如下面这张测试,VisualGLM-6B描述得还挺到位的,能看出是阿根廷和世界杯,但别被蒙了:图上并没有阿圭罗和迪马利亚这两位球星。
因此,官方也称将在后续继续针对以上问题进行一一改进。
不过,拥有图片解读能力的大模型,也并不只有VisualGLM-6B一个。
目前来看,表现比较好的“表情包杀手”还是GPT-4,从网友测试来看,它已经能根据表情包中的文字解读meme:
开源大模型方面,基于Vicuna-13B开发的MiniGPT-4也能解读图片,同样只需要一张单卡RTX3090就能搞定:
不过在这批大模型中,VisualGLM-6B强调的则是“中文开源”特点,换而言之,它在中文描述上可能会比其他大模型更准确一些。
你试玩过这些“表情包解读AI”了吗?感觉谁更能get人类思想精华?(手动狗头)
参考链接:[1]https://mp.weixin.qq.com/s/SzS6Gx8ZjtBXXQ7cs8-zLQ[2]https://twitter.com/thukeg/status/1659079789599248386
标签:
您可能也感兴趣:
今日热点
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 斗鱼:一季度付费生态进一步优化 内容驱动增长有成效|世界快讯
- 全球快报:国内首支零碳科技基金完成50亿元募集,IDG资本与香...
- 庆祝母校建校121周年 “南大开讲·湾区论坛”邀请温元凯作主题报告
- 【聚看点】刷刷手掌即可乘车! “微信刷掌”产品未来将落地...
- 致力于解放AI生产力,潞晨科技完成数亿元A轮融资 前沿资讯
- 既是热门目的地,也是重要客源地 深圳游客量保持高位运行-重...
- 清华开源图文对话大模型!表情包解读有一手,奇怪的benchmark...
- 焦点简讯:卓越新能(688196)9000万股限售股将于5月22日解禁...
- 江西新余:“夜经济”引爆消费活力_世界新消息
- 每日讯息!财政支出刚性不减 加力提效信号明确
- 荒野大镖客2怎么获取大砍刀(荒野大嫖客2砍刀怎么得)
- 数字经济提振高质量就业
- 疾风信天翁被秒_疾风信天翁_焦点日报
- 以楼宇经济为抓手重塑郑州市区域竞争新优势 世界新要闻
- 天天日报丨“离太阳最近”的图书馆
- 全球热点评!OpenAI放大招!AI时代超级管家来袭
- 全球快资讯丨财富动荡!香港和中国大陆超高净值人群下降,新...
- 学者警告:农村振兴背后必须防范债务风险!-新动态
- 引入千亿基金「源头活水」 ,浙江先进制造业再添新动能-全...
- 【环球报资讯】网红黄老师评论区遭沦陷,粉丝宣布脱粉回踩,...
- 4月我国进口巴西大豆为何再度超越美豆?一文读懂大豆贸易格局
- 央行印钞机已尽力,通缩来了?很多人忽略了这“2个现象”
- 世界微资讯!兴化出生人口创新低,会有哪些影响?
- 爱在深圳更有魔力!“爱情地标”欢乐港湾推出“深圳表白季”...
- 每日简讯:“微信刷掌”来了!乘客可在北京轨道交通大兴机场...
- 澳门多所高校开启“内地招生季”,广东户籍考生可享加分
- 为“诗和远方”注入新活力 华侨城推动文旅产业高质量发展-聚焦
- 张掖临泽:用“小支点”撬动乡村治理大变化
- 他们开始逃离北上广深!|天天日报
- 深陶会幼儿园课程与评价专委会成立会议召开 全球快看点
- 观天下!三大运营商5G渗透率不断提高 数字经济擦亮业绩底色
- 焦点讯息:凝聚生态力量,深企助力打造合伙型平台
- 当前短讯!中国与中亚贸易“驼铃阵阵”,中欧班列布局迎来哪...
- 北京金融局:积极探索培育、吸引金融人才的有效途径|每日消息
- 【新视野】不敌成都!合肥上榜都市圈发展潜力排名TOP10!
- 物价涨了!汕头发布4月居民消费数据! 当前快讯
- 【新一周新股】新一周有2只新股上市(5月22日~5月26日)
- 世界看热讯:给美依礼芽投票,不只因为“二次元”
- 【世界聚看点】第13次捧杯!中国队击败韩国队实现苏迪曼杯三连冠
- 大湾区专利指数报告:大湾区海外发明专利授权量占全国25.98%
- 瑞·达利欧:历史发展中有五大驱动因素|天天短讯
- 解码浙江省“4+1”先进制造业专项基金群之二:串联三关键词,...
- 解码浙江省“4+1”先进制造业专项基金群之三:产业基金“浙江...
- 见微知著:我对未来十年的经济研判 全球讯息
- 梦幻联动!Alin黄丽玲透露曾帮女儿追星马嘉祺|视点
- 黄晓明520晒出一条动态,力证单身,网友:杨颖快点来道歉!
- 亚投行行长金立群:中国在国际产业链上的重要地位不会被取代-...
- 凤凰花下开启美好生活,第八届OCT凤凰花嘉年华正式启动
- 当前看点!深圳康莱德酒店静待“灵感之旅”开启
- 当前快报:宇宙的尽头是编制,城市编制人口比例排名,谁是第二...
- 创投大咖热议:打造全过程创新生态链,促进大湾区高质量发展...
- 今日怎样查手机真假_手机怎么查真假如何查询手机真伪
- 中央确定福建省3个大城市,厦门为I型大城市,福州第2,泉州第3!
- 和AI谈恋爱,掏空我钱包 世界观速讯
- 世界实时:知危险 会避险 乐成长——光明区东周小学开展体...
- 世界讯息:全球富豪涌入,迪拜楼市狂奔
- “深政观察”邀请来深建设者深度“观察深圳”
- 全球球精选!膘肥体壮的意思及造句_膘肥体壮的意思
- 数读经济:警惕4月份一些列关键数据回落的信号|焦点观察
- 用电数据折射南方区域经济活力 全球消息
- 为何不能只看GDP做债-全球时讯
- 前沿资讯!国家动真格了!第二批央企总部批量搬离北京,谁是最...
- 天天观焦点:山西忻州:多子女家庭租房提取住房公积金额度提...
- 上升20位!阜阳,全国第55! 天天观点
- 环球速讯:单的部首叫什么名字(单的部首是什么)
- 985医学硕士,卷不了编制,进不去医院
- 全球头条:学历贬值的年轻人,后悔考研了吗?
- 美食荒漠之争,北深杭谁会拿第一|焦点观察
- 世界关注:张向晨:未来国际贸易的形势将是数字化的、绿色的...
- 周铭山:监测乡村振兴债务风险,建立乡村债务风险防控机制-每...
- 【全球新视野】闻令即动,以练促训!龙华区观澜街道开展突发...
- 朝阳区望京街道互助家园启动 政企联动打造家门口的一站式助...
- 临沂市兰山区入选2023全国市辖区高质量发展百强
- 推动成渝地区双城经济圈建设氛围浓 西洽会上,烙下更多“双...
- 救命,这头号渣男,竟然也能洗白
- 推动成渝地区双城经济圈建设氛围浓 西洽会上,烙下更多“双...
- 煤层厚度55米,亚洲第一露天煤矿,连续挖掘118年后,如今怎样了
- 一公园着火,香山街社区保安员及时处置火情受嘉奖 前沿资讯
- IN视频 | 深圳市福田区退役军人红星志愿队成立应急救援队
- 硼基生命 环球报道
- 【新视野】农村如何应对人口变化新趋势
- 环球新消息丨苏丹冲突双方达成为期7天的停火协议
- 全国助残日||关爱残疾人 传播正能量
- 【全球报资讯】获奖连连!深圳中学学子闪耀国际竞赛舞台
- 头条:刘诗诗淡定比baby强
- 鞍山轮胎厂家排名_鞍山轮胎好吗|今日快讯
- 兴化全市户籍人口148.73万人,比上年减少2.11万人 天天速看料
- 用电数据折射南方区域经济活力
- 天天快消息!国泰君安首席经济学家何海峰:政策性开发性金融...
- 全球速看:最高266元!宁波发放数币消费红包、满减券、地铁通...
- “520” 致敬最可爱的人!今天,60多位老兵在富阳相聚,平均...
- 动态:吴晓求:监管改革凸显金融在中国未来经济发展中的重要性
- 利物浦vs维拉首发:萨拉赫、加克波、迪亚斯先发,菲尔米诺替...
- 世界速讯:王一鸣:疫情冲击不可能一日修复,经济恢复也不能...
- 王一鸣:恢复和扩大内需是经济持续恢复关键,可适当加大财政力度
- 中国武术五大门派排行榜:武当派居第一,少林派排第二 环球...
- 哪些城市居民存款较多?京沪超5万亿,这个城市人均存款达16万元→
- 对话国泰君安何海峰:中国经济企稳回升,重点看好七个产业
- 山东老乡,第七个IPO来了
- 好酷的铠甲!后湖街道国防安全教育进校园 世界观焦点