AI绘画,为何听不懂人话?
2023年的AI绘画领域是由两家公司的动态引爆的。
(资料图)
3月17日百度发布文心一言,网友们疯狂发散想象力,令人捧腹的图片接连被生成。关于文心一言文字生成图片的讨论热情*高涨。
紧接着,3月18日,美国Midjourney公司宣布第五版AI图像生成服务,即MidjourneyV5。本来就处在行业*水平的Midjourney,这一次版本更新真正让AI绘画圈沸腾了。因为MidjourneyV5生成的图片堪称惊艳。
两个系统几乎同时发布,免不了被对比。深燃体验后发现,文心一言的图片生成功能,能够识别简单元素、文本没有歧义的人或事物,但涉及到成语、专有名词,以及字面意思和实际意义不同的表述,它就会跑偏。Midjourney在这方面几乎没什么问题。另外,Midjourney接收到的提示词(prompt)越详细精准,生成的图片越符合要求,但文心一言需求越多,系统越容易出错。
调侃背后,AI生成图片其实不是一件简单的事情,需要在数据、算法、算力等方面综合发力,既对技术和硬件有高要求,还对数据采集和标注等苦活累活高度依赖。文心一言的AI绘图功能与Midjourney在以上三方面都有不小的差距。
百度方面公开表示,“大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间。”从业者预估,文心一言全力追赶,用一年左右的时间有希望达到国外80%以上的水平。
AI绘图这个战场,枪声已经打响,追逐赛、排位赛都将一轮轮上演。
搞不定成语和专有名词,提示词越多AI越废
文心一言最近接受的*考验,莫过于画一幅中餐菜名图。在网友们的热情创作下,驴肉火烧、红烧狮子头等菜品出来的画做一个比一个离谱,车水马龙的街道、虎头虎脑的大胖小子,同样惊掉了大家的下巴。
网民热心找bug,百度程序员应该也在背后发力,深燃测试发现,以上内容均已更新为可以正确显示对应图片。不过,像娃娃菜、脸盆、虎皮鸡蛋、三杯鸡,还有胸有成竹的男人、虎背熊腰的男人,文心一言仍然给出的是字面直译后的图片,画风一言难尽。
即便输入提示词时强调“画一个卫浴器材水龙头”,文心一言画出的仍然是水中龙的头像;当深燃输入“画一个风姿绰约的人”时,系统画出的是一位男士,显然AI没能理解风姿绰约形容的是女人。
程序员改bug的速度比不上网友找漏洞的速度。很快又有人发现,文心一言画图时有把提示词中译英之后根据英文意思生成图片的可能性,据此有人推测百度可能用国外的作图产品接口,套了一个自己的壳。
深燃也验证了一下某用户的测试。比如输入“水瓜”,画出的是西瓜,这也对应西瓜的英文单词Watermelon;要求画树叶、封面、苹果,画出的图是树叶覆盖苹果,显然系统是把封面翻译成了Cover,这个单词也有覆盖的意思;画“土耳其张开翅膀”,出现的画面是张开翅膀的火鸡,我们都知道,Turkey是土耳其,也是火鸡。
对此,百度对外回应称,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG。“在大模型训练中,我们使用的是全球互联网公开数据,符合行业惯例。”
亚洲视觉科技研发总监陈经也在接受媒体采访时表示,“百度的画图AI采用了英文标注的开源图片素材进行训练,因此需要中翻英来当prompt(提示词)。目前,全球AI研发有开源的传统,特别是训练数据库,不然收集图片效率太低了。”
深燃体验后还发现,文心一言在单个需求描述时表现尚可,比如画一幅愤怒的小孩、开心的农民、一只很饿的流量猫,但一幅图一旦提出多个作图需求,AI就有点懵。
比如请文心一言“生成一幅画,在一个下雨天,小红在植树,小王在看书”,系统生成的图片里只有背靠树看书的一个人;还有,“画一幅画,里面有大笑的年轻人、哭泣的小孩、愁容满面的老人”,系统把哭泣和愁容满面等表情集合在了一张脸上,画出了一个小孩和老人的结合体。如下图所示,还有一些类似的情况,系统同样没能准确完成给出的指令。
深燃又把上述提示词输入到MidjourneyV4测试了一下,如下图所示,即使是V4版本,表现也远高出文心一言。MidjourneyV4基本能理解句子中的意思,做出的图几乎可以包含所有的要素。
深燃还测试了AI绘画领域一直以来难以攻克的画手指难的问题。在这方面,文心一言也没能经受住考验。比如“画一位30岁的女士,双手竖起大拇指”,文心一言生成的图片大拇指是竖起来了,但是其中一只手有7根手指;输入“画一个人,两只手做点赞姿势”时,系统也无法实现这一手部姿势。
Midjourney此前的版本同样存在手指误差的问题,最新发布的V5版本,已经能够正确画出五根手指,虽然有人依旧指出其绘出的大拇指有点长,但相比以往已经有不小的进步。有从业者评价:“Midjourney的此前版本就像是近视患者没有戴上眼镜,而MidjourneyV5就是戴上眼镜后的清晰效果,4K细节拉满”。
比如MidjourneyV5画出的《三体》角色图,效果被网友评价为几乎要“成精了”。而文心一言画《三体》角色时,系统全然不顾描述里提到的留着黑色短发、戴着眼镜的要求,画出了一个扎着发髻,不戴眼镜,古风穿着的男士。
最近MidjourneyV5画的一对情侣的图片掀起了业内一阵惊呼。作图的提示词是:“一对年轻的情侣穿着牛仔裤和夹克坐在楼顶上”,背景分别是2000年和2023年的北京。最后出图的效果大大超出很多人的想象。深燃把类似表述输入文心一言时,系统直接给出了毫不相关的图片。
对比来看,Midjourney作图已经在细节上几近*了,文心一言还处在难以准确分辨字面意思和实际意思的初级阶段。Midjourney提示词描述越详细,生成的图片越精准,文心一言能理解的文字长度有限,过多描述会让它直接报错或者胡乱生成图片。
02 AI文生图到底有多难?
按出现时间来算,AI绘画算是AI领域的新事物。
公开报道显示,2021年1月,OpenAI发布了两个连接文本与图像的神经网络:DALL・E和 CLIP。DALL・E可以基于文本直接生成图像,CLIP能够完成图像与文本类别的匹配。DALL・E是基于GPT-3的120亿参数版本实现的。
随后在2022年,DALL·E 2、Stable Diffusion等文生图底层大模型发布,带动了应用层的发展,出现了一大批爆款产品,包括Midjourney。2022年也被认为是“AI绘画元年”。
StabilityAI的Stable Diffusion是一个开源模型,很多开发者基于这个模型开发训练出了更多不同的生成模型。国内很多科技公司的AI绘画项目也是由Stable Diffusion提供技术支撑。Midjourney是付费订阅的,公开信息显示,Midjourney每年的收入可能达到1亿美元左右。另外,有AI绘图业务的还有Google、Meta等公司。百度的文心一言和此前就发布的文心一格算是国内最早的具备AI绘画功能的大模型。
文心一言的发布和升级了的MidjourneyV5更是将AI绘画行业推向高潮。这一次迭代是Midjourney自去年推出以来*的更新,Midjourney也成了目前市面上*进的AI图像生成器之一。
热度还在继续。最近,行业内又有一系列企业跟进推出AI绘画功能。3月21日,微软宣布,必应搜索引擎接入了OpenAI的DALL·E模型,将AI图像生成功能引入新版必应和Edge浏览器,免费开放。就在同一天,Adobe发布AI模型Firefly,支持用文字生成图像、艺术字体。
可以说,2023年,AI绘画行业迎来了真正的大爆发。
调侃文心一言之余,客观来说,AI生成图片本身就不是一件容易实现的事情。系统的语义理解能力、充分的数据标注、细节处理、用户的提示词选择,都在AI作图中起着重要作用。
AI领域资深从业者郭威告诉深燃,之前AI生成图片只需要确认风格、物品等,用GAN(生成式对抗网络)生成图片。文心一言和Midjourney这一代模型的做法是先理解自然语义,再生成图片。把自然语言输入到系统里,AI对语义的理解和人类的理解不可避免会有偏差。
“更大的难点,还是标注数据。语义比词组的空间更大,需要大量数据,而且标注难度和成本更高。”郭威说。
很多人以为,系统生成图片有误时,后台改一个标注就能矫正系统了。比如生成“驴肉火烧”出了错,只是告诉系统这是一道菜,而不是一头驴就行了,但这种方式只是一对一修改而没有一层层训练,修正了单个错误,并不会增强系统的理解能力,治标不治本。
也就是说,即便是有大量开源的全球数据库图片可以用,国内的系统在中文提示词与英文素材对应方面还需要做大量工作。
另外,AI生成的图片极难完善眼睛、手、脚等部位细节。一直以来,行业内就有“AI不会画手”的说法,很多人判断是不是AI作图,就看图片中的手画得怎么样。“因为深度学习神经网络没有足够的数据学习手指与手指之间的架构逻辑,加上手指关节间特征属于细小颗粒度,生成的手容易出错。”资深AloT算法从业者连路诗说。目前除了MidjourneyV5,其他AI作图产品细节方面的问题还没有完全解决。
到了最终生成图片环节,用户选择用什么提示词(prompt)和风格(style)来生成想要的图片也很重要,新用户往往不得方法,很难找到精准的提示词或足够契合的风格。
此外,目前的AI绘图产品还存在一些共同的挑战。
连路诗提到,一方面是时效性不够,目前AI绘画知识库的更新、数据的引入不完全是实时的,如果加入实时性数据,需要巨大的成本;另一方面,目前各系统对数据过滤的严谨程度不一样,有的设置了相对严格的禁用词,有的没有,法律或道德边界不清。
还有一个是AI绘图带来的版权问题。目前行业内大部分企业不对外宣布自己用来训练AI的图片来源,这样的AI生成图片商用时,可能存在未知的法律风险。且目前AI作的图也不受版权保护。
03 多久才能追上?
行业共性问题之外,根据多位从业者的说法,在数据、算法、算力三方面,文心一言都跟Midjourney差距不小。
数据方面,文心一言数据的数量和质量都需要提升。
连路诗解释,NLP(即natural language process,自然语言处理)分成几个过程,*步是自然语言理解,比如,实体识别,系统会根据专属名词生成自己的理解;接下来是自然语言生成,包括生成文字和图片。大多数问题出在对自然语言的理解不准确,这时候就需要人工对句子进行数据处理、参数调整等。
“中文本身难在字与字之间没有间距,人工分词一方面要隔开字词的间距,同时要界定动词、名词等词性,还要标注主语、谓语、宾语,以及是否为常用词等”,连路诗补充,“分词需要庞大的人力投入,一般一个小组至少需要5000人。AI公司通常把这一需求外包给人力成本较低的省份的公司,另外,AI生成图片的结果也需要人类的反馈增强学习。”
基础标注工作做好之后,系统会将这些词转成向量进行计算,向量越不准确,生成的结果越模糊。“目前百度可能做了一部分工作,但还没达到能准确理解大部分语义的程度,可以判定为不及格。”连路诗说。
陈经也提到,大模型需要的数据库里的“图片是要标注的,这更加大了收集整理图片的难度。当前也有中文标准的训练数据,但是少很多。由于发布时间仓促,百度对于画图AI的中文输入词还没完全搞定,后续应该会根据用户反馈,把中文的提示词与英文的训练素材更好的对应上。”
第二大差距是算法。
算法方面,各公司在底层大模型的使用层数上有差别。连路诗认为,以文心一言目前在算法方面的表现来看,有可能与Midjourney等模型的深度神经网络的层数有十倍左右的差距。
“AI生成图片不准确还有一种可能性,该系统的底层架构不是深度神经网络,也没有根据底层Vector(向量)一点点像素级生成图片,而是系统先用搜索引擎匹配知识图谱,再生成图像,也可以理解为拼凑贴图。神经网络在对图片进行计算的时候,本来就有图片的旋转、切割、拼凑,这样的系统生成的图片有可能是颗粒度很粗的片状图片拼凑出来的。”连路诗做了这样的推测。不过,文心一言属于哪种技术还不清楚。
第三,算力上的差距。OpenAI号称自己的模型是千亿规模参数,也就是每次计算的时候拥有1000张以上显卡分布式计算的算力。百度与国外几家主要科技企业的算力差距同样不小。
当然,百度和Midjourney目前的发展程度不一,与其发展阶段也有关系。
Midjourney于2022年3月首次面世,目前已经迭代到了第五代。百度文心一言所具备的AI作图功能,即文心一格,虽然在2022年8月就推出了,但目前没有看到相关的升级迭代信息。而在AI领域,变化几乎是以天为单位的。
国内AI绘图多久能赶上国际水平?郭威对此比较乐观。在他看来,“数据方面虽然有差异,但最多也只有半年左右的差距,中文类的数据国内比国外更多,拼命补一下能赶上。”
至于算法差异,他表示,OpenAI等几家机构比Google、Facebook、百度等高出半年到一年的水平,之前因为不确定性大,各企业没有重点布局,现在验证这条路是有前途的,针对性追赶,很快也能赶上。虽然OpenAI没开源,但从OpenAI出来的一些人很快也会把技术思路共享到小圈子里,头部公司很容易跟进。
“算力的差距就很难弥补了,短期内难追上去,但是用一年多时间把国内系统做到国外80分或90分以上的程度是可能的。”郭威说。
无论如何,接下来,AI绘画将会走到舞台中央大放异彩是确定的事实,对各公司来说,拼的是速度。行业规则是公开的,所有选手都在往前跑,这时候,竞争是*的动力,拿结果说话才是硬道理。
标签:
您可能也感兴趣:
今日热点
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 东南亚电动摩托生态品牌「SWAP」获千万美元级别Pre-A+轮融资
- AI绘画,为何听不懂人话?
- 海底捞,只靠关店「回血」还不够
- 申请银行停息挂账的流程是什么?停息挂账有哪些办理条件?
- 申请银行个性化分期的流程是什么?个性化分期有哪些办理条件?
- 围棋高手吴清源是哪里人?吴清源资料介绍?
- 房贷逾期多久可以协商还款?房贷延期还款个人怎么申请?
- 天天视讯!围炉夜话是什么意思?围炉夜话有什么含义?
- 卫生信息管理专业是干什么的?卫生信息管理专业有哪些就业方...
- 个性化分期欠多少钱可以办?个性化分期个人怎么办理?
- 停息挂账欠多少钱可以办?停息挂账个人办理方法介绍
- 为什么手机看图片会黑屏?手机看图片会黑屏的原因有哪些? ...
- 福州经济运行实现平稳开局
- 欠信用卡1万能办理停息挂账吗?停息挂账的办理流程介绍
- 银行办个性化分期有金融限制吗?个性化分期办理流程介绍
- 卫子夫为汉武帝生了几个孩子?卫子夫历史资料介绍?_当前速递
- 停息挂账适用于哪些贷款?停息挂账只能是本人申请吗?
- 为什么四川老是地震?引起地震的原因有哪些?_当前资讯
- 为什么空集是任何集合的子集?集合是什么概念?
- 网贷能不能办停息挂账?网贷逾期后怎么办理延期?
- 唯品会的特卖模式是怎样的?特卖模式的主要特点是什么?_最新...
- “2023数字经济峰会”将于4月中旬在香港会展中心举行_环球热资讯
- 房贷能不能办停息挂账?房贷办理延期还款的条件是什么?
- 制造业PMI高位回落至51.9%,超半数企业反映需求不足-独家
- 网贷真的可以延期还款吗?申请网贷延期的条件是什么?
- 平台贷款都能办延期还款吗?网贷延期什么条件下能办理?
- 为什么手机QQ换不了头像?手机QQ换不了头像的原因介绍?
- 银行能办停息挂账吗?办停息挂账需要满足什么条件?
- 快播:为什么要保护野生动物?保护野生动物的意义有哪些?
- 银行有个性化分期吗?申请个性化分期的条件是什么?
- 各地拼经济谋发展(2)| 拼经济:广东射出三支“穿云箭”
- 「盖是英雄」获百万元天使轮融资,蒙牛产业基金领投
- 世界新动态:黄牛安排3000个微信群抢票,上半年演唱会市场杀...
- 贷款逾期八年还能协商吗?信用卡欠款的立案标准是多少?
- 蒸发百亿!东北超市里的「赚钱王」,被南方人上了一课 热点评
- 今日聚焦!Mysteel:3月非制造业景气度显著高于制造业
- 信用卡逾期八万能怎么补救?信用卡欠多少钱会被起诉立案?
- 房贷逾期3月可以协商还款吗?房贷延期的协商条件介绍
- 引导学生“扣好第一粒扣子” 深圳多举措推进未成年人思想道...
- 信用卡逾期4万还能协商还款吗?哪种情况可以跟银行协商停息挂...
- 网贷逾期4个月可以协商还款吗?网贷什么情况下可协商延期还款?
- 信用卡逾期2年可以协商还款吗?信用卡哪种情况可协商分期还款?
- 信用卡逾期后怎么自救?信用卡没钱还怎么跟银行协商?
- 房贷逾期半年的处理办法是什么?房贷逾期怎么协商延期还款?
- 网贷欠2万能够协商还款吗?网贷欠2万怎么协商延期还款?
- 信用卡还不上还能怎么办?欠信用卡10万能协商分期还款吗?
- 阿迪、耐克跌倒后,李宁、安踏们吃饱了吗?-速看
- 世界快讯:造车三兄弟,小鹏先掉队
- 聚焦:人民日报:消费市场“第三方测评”应规范有序发展
- 央行信用卡可以协商还款吗?信用卡如何办停息挂账?
- 西安市首支百亿元城市更新母基金启动 西安财金基金管理规模...
- 3月份中国制造业PMI延续扩张走势 全球热闻
- 环球聚焦:聚焦发展实体经济 央企投资持续提速
- 解读:3月份采购经理指数延续扩张走势 环球热门
- 19项举措助民营经济健康发展
- 快手All in海外,能否复制Tiktok?_世界微头条
- 当前观点:中国又赢了,中美再次拉开了47个百分点差距,人民...
- 一箭四星!组成国际上首个车轮式卫星编队 快消息
- 快看点丨在Biotech奋斗的身影中,看见创新药行业最真实的底色
- 「三块五也救不了钟薛高」 全球今日报
- 世界速递!「激素茅」长春高新,为何跌跌不休?
- 云南省印发数字政府建设总体方案
- 数字经济、AI给光模块赛道带来了新机遇_天天观速讯
- 21个特大城市与超大城市中排名第一,北京高质量发展指数全国...
- 【世界播资讯】集装箱业务回调 “集装箱+”业务坚挺 中集...
- 环球看热讯:辛巴曝出头部主播流量内讧,快手「CEO工程」失速
- 周期在摆动、完美风暴已穿越,复星如何开启2023? 世界新视野
- 北京高质量发展指数全国领先
- 【当前独家】拼经济:广东射出三支“穿云箭”
- 央企专业化整合再发力
- 中央企业累计投资超3500亿元
- 中央企业累计投资超3500亿元 焦点速看
- 恒生中国内地首家跨境财富管理中心落地粤港澳大湾区_世界快资讯
- 美图2022年报:总收入20.85亿元同比增长25.2%
- 京东工业在港交所递交招股申请业务规模显著增长、连续三年保...
- 微盟发布2022年报:总营收18亿元 下半年亏损环比收窄0.8亿 全球视点
- TCL科技去年实现经营现金流净额184亿元,面板价格迎来持续上...
- 亚太区继续领跑全球首季IPO市场 全球滚动
- 充电行业百花齐放,智充科技公布新目标:打造“数字能源SaaS...
- 加华资本宋向前:未来10年,中国消费大趋势!
- 聚焦发展实体经济 央企投资持续提速 环球即时看
- 专家:中国“去美元化”,还有较长的路要走? 全球热推荐
- 商务部:积极探索中巴重点产业和新兴行业投资机遇 天天快消息
- 首夺全国工业经济“双第一”的深圳,前两月制造业投资劲增48.6%
- 应对汛期,南山区落细落实各项防御措施|每日动态
- 菜鸟成为联合国世界粮食计划署全球物流合作伙伴,为首个战略...
- 万科发布2022年报:同比增长23.1%,实现经营服务业务双位数增...
- 广东:普通高中学校不得违规跨地市招生 天天简讯
- 大家发现了吗?社会上出现了一些“反常”现象,今年风向完全...
- 穗日经贸对话再启新程,RCEP利好持续释放 环球热讯
- 环球微资讯!深化集成性改革和制度型开放!中国(上海)自由...
- 海南自贸港将启动全岛封关准备,意味着什么? 环球速递
- 当前讯息:1-2月平谷区住宿和餐饮市场快速回暖
- 医疗科技带上宠物经济?第九届深圳国际宠物展备受关注
- 夜间经济逐渐火热 成为多地促消费发力点 当前资讯
- 热点聚焦:每经专访对外经贸大学桑百川:扩大消费不能依靠简...
- 今日快看!这座北方内陆小城,人均GDP第一,排名超北上广深
- 从目前情况看,国内正在形成5大趋势,大家要提前做好准备!
- 环球速讯:中国为何必须要强大呢?为什么我们加班严重,失业...
- 环球讯息:广东启动预制菜全产业链标准化试点遴选工作,10家...