ChatGPT重大升级!但仍会「一本正经胡说八道」
今年初以来,以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注,股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时,微软投资的OpenAI又推出了GPT-4,号称功能比GPT3.5更强大。
(资料图片)
北京时间3月15日凌晨,OpenAI正式发布大型多模态模型GPT-4。据介绍,与ChatGPT只能接收文字不同,GPT-4能接收图像和文本输入来输出文本内容;扩写能力得到增强,能处理超过2.5万个单词的文本;更具创造力,回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;并且能够处理更细微的指令。
“这是我们迄今为止功能最强大的模型!”OpenAI的高管和工程师在介绍视频里直言:“GPT-4是世界*款高体验、强能力的先进AI系统,我们希望很快把它推向所有人。”
新的大模型一经发布,便受到网友们的热捧。但仍然值得的一提的是,虽然GPT-4的功能进一步增强,但仍然不完全可靠。OpenAI坦言,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。
自去年11月推出以来,ChatGPT已经能够根据用户提示生成原创文章、故事和歌词,但它也引发了一些担忧。最近几周,人工智能聊天机器人(包括来自微软和谷歌的工具)因情绪反应过激、犯事实错误和完全“幻觉”而受到指责。
01 专业场景中接近人类水平
开发GPT大模型的OpenAI称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。
之前人们使用的ChatGPT只有处理文本的能力,GPT-4开始接受图像作为输入介质。比如,给它展示一张图片,问它手套掉下午会发生什么,很快会得到“它会掉到木板上,并且球会被弹飞”的回答。
OpenAI还用一张“梗图”演示了GPT-4的新功能。用户提问:解释下图的笑点是什么,并对图片中的每部分进行描述。GPT-4会分别对每张图中的内容进行描述,并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口,是荒谬的。
GPT-4也能简练指出图片的违和之处。用户提问:“这张图片有什么不寻常之处”时,GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上使用熨衣板熨烫衣服”。
不仅是图像理解,它还可以阅读图片形式的论文。通过几张论文的图片,GPT-4可以总结内容,也可以对指定内容展开解释。
除了在文本输入的基础上进一步接受了图像输入外,GPT-4还升级成为了一个“学霸”,基准测试表现远远优于现有模型。OpenAI表示,如果是随意聊天,用户可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4将明显比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。“在我们的内部评估中,它产生正确回应的可能性比GPT-3.5高40%。”
根据测试,在“美国高考”SAT中,GPT-4的分数增加了150分,现在能拿到1600分中的1410分。它还通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
此外,GPT-4对于英语以外的语种支持也得到了大大的优化。许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的性能,OpenAI使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言。在测试的26种语言中,有24种语言,GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。
在API(应用程序编程接口)方面,GPT-4还开放了一个使用功能,允许修改“系统提示”。之前ChatGPT的回答总是冗长而平淡,这是因为系统提示中规定了“你只是一个语言模型……你的知识截止于2021年9月”。现在通过修改这句话,GPT-4就可以展现出更多样的性格,比如扮演苏格拉底。
02 仍然不完全可靠
在体验ChatGPT之时,不少用户会发现ChatGPT时不时会“一本正经地胡说八道”,而GPT-4尽管号称功能更全面,但会出现幻觉、胡说八道的毛病还是没能完全改掉。
OpenAI介绍,尽管功能已经非常强大,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。GPT-4仍然会生成错误答案,并出现推理错误。
也就说,在GPT-4身上依然可以看到之前版本“一本正经地胡说八道”的情形。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。
不过OpenAI也提到,该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了82%,产生真实事实的可能性提高了40%,优于GPT-3.5。”
“它仍然存在缺陷,仍然有限,但它有明显的改进。它比以前的模型更有创意,它的幻觉明显减少,而且它的偏见也更少。”OpenAI公司CEO奥特曼在Twitter上称,GPT-4是其模型“最有能力且*”人类价值观和意图的模型。
这也意味着,相较之前的模型来说,GPT-4虽然仍可能“一本正经地胡说八道”,但频率有所减小。
不过频率的减小还是不能让人们放松警惕。在GPT-4发布后,微软营销主管表示,“如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。”
这似乎可以理解为,微软的新必应早就已经用上了GPT-4。而结合前段时间对新必应的争议来看,已经用上了GPT-4的新必应还是出现了不少“发疯”行为。
此外,与前一代一样,GPT-4是基于2021年9月之前的数据训练的,所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解,也不会从其经验中进行学习。OpenAI表示:“GPT-4仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”
标签:
您可能也感兴趣:
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 当前热门:洞隐科技完成超亿元A轮融资,隐山资本投资
- 全球短讯!精品咖啡连锁品牌「四叶咖」获数千万元天使轮融资...
- ChatGPT重大升级!但仍会「一本正经胡说八道」
- 年轻人的「榴莲自由」,让中间商赚麻了
- 信心·力量 贯彻落实全国两会精神|开进春天的南外滩“金融...
- 统计局网站突然改版,有哪些信号值得关注?
- 世界速讯:2022年宁波各县市区GDP排行榜 鄞州排名第一 北仑排名第二
- 全球微头条丨2023年第一次自治区重大项目政金企现场对接会在...
- 世界头条:PU是什么材料?PU有什么优缺点?
- 什么是馈线电路?馈线是什么? 当前观点
- 什么是混凝土抗压强度等级?普通混凝土划分多少个等级?
- AI佛祖,ChatGPT如何「普度众生」?
- 世界播报:广西:打造金融服务“信息融合”新格局
- 我在抖音喝到0.1元的瑞幸咖啡
- 什么牌子的裤子质量好又不贵?较为知名的牛仔裤有哪些? 环...
- 沈阳中国旅行社有哪些?沈阳十大旅行社排名一览?
- 环球实时:18元10万赞,直播间人气全靠刷
- 什么是中职教育?对中职教育的理解介绍?
- 多地连夜行动处置3.15晚会曝光企业-焦点资讯
- 全球热点评!什么手表是瑞士原产?瑞士原产表的特征有哪些?
- 什么叫文体?文体的构成包括哪些?_全球今热点
- 什么是权益法?什么是成本核算法?-全球速读
- 微动态丨什么叫做华裔?华裔是什么意思?
- 今日聚焦!寓教于乐 深圳保险业“3·15”宣传活动丰富多彩
- TVB不是东方甄选 环球新消息
- 世界头条:企业在前海租房办公 最高补贴千万元
- 探秘深圳首家碳中和幼儿园:生动有趣的低碳教育从娃娃抓起-天...
- 每日视讯:《黑暗荣耀》是复仇的美学,也是现实的惨痛
- 国家能源局:2月份全社会用电量同比增长11.0% 天天速看
- 环球观热点:亚布力论坛年会暨黑龙江产业投资与开放合作大会...
- 全市金融工作座谈会召开 每日资讯
- 中信证券:消费复苏将是今年明确主题 建议配置运动、美妆、...
- 关于全国最强的县级市昆山市和义乌市不可能设立地级市研究分析
- GPT-4发布,ChatGPT大升级 天天快讯
- 今日热议:欧洲三大股指收盘大跌
- 环球快看点丨腾讯微保构建多元产品体系,织密消费者权益“防...
- 抖音「老中医」,专治小红书-播资讯
- 世界微动态丨深圳银行保险机构全面开展“3·15”宣传周活动
- 125岁的上海家化,终于怕老了
- 5亿元!2023“惠购湖北”首轮消费券今晚8时开始发放!附抢券攻略
- 天天新资讯:“美好乡村足球季”走进雅色小学
- 焦点观察:今年江西省级预算新增安排137.3亿元
- 海南多部门联合出台破产新规支持实体经济发展明确“重整识别...
- 经济运行整体呈企稳回升态势
- 前2月社会消费品零售总额增3.5%
- “拼经济”拼出机会 在高质量发展中兑现对美好生活的向往 ...
- 西部“最强大脑”,这一省数字经济领跑 微速讯
- 播报:拓数派发布新一代云原生虚拟数仓
- 西安空天产业面向粤港澳大湾区招商引资
- 【新视野】夺心智、强智能、探方向、寻未来 2023中国消费创...
- 速看:2023年首份宏观数据来了,乐观还是不乐观
- 提振消费 商务部2023年将组织300余场促销会_最新快讯
- 千亿级文旅项目寻伯乐 长春将在深设“文旅招商会客厅”-视讯
- 福田区校园体育联赛开幕
- 前两月服务消费改善明显,一季度经济预计增长4%左右
- 世界热资讯!中国国航:2月旅客周转量同比上升71.2%
- 中央财经大学陈端:资金与人才仍是束缚企业数字化转型的重要...
- 视焦点讯!中消协:个人信息泄露和网络谣言困扰广大消费者
- 【聚看点】国家统计局:今年前两月消费回升成中国经济一大亮点
- 公明街道宣传推广智能燃气报警器 营造安全用气环境
- 天天最新:外媒炒作中国物价下降,比通胀更可怕,中国真的没...
- 天天消息!今年前2个月全国规模以上工业增加值同比增长2.4%
- “数”览云南宣威2022年“成绩单” 天天播资讯
- 消费者满意的城市,为何大多在东部和南方 | 新京智库
- 今年前2个月全国规模以上工业增加值同比增长2.4%
- 深圳的舞龙飞到了新疆喀什!龙岗体育教师支教喀什圆新疆舞龙梦
- 【世界速看料】法律“玲”距离 | 尾款未见,房产被他人抵押...
- 去湖北抢车:狂降9万的燃油车,抄底还是抄家? 环球快报
- 全球快看点丨投资人出现在台州
- 瑞幸在新加坡能做起来么?
- VC组团办签证:去硅谷蹲项目-每日观察
- 世界新消息丨图森内讧:转型搞L2,边裁员边给CEO发天价年薪
- 南非媒体:中国两会对世界的意义愈加重要
- 环球快报:国家发改委:提振消费信心 今年将做好四方面工作
- 全球信息:前两月宁夏对东盟进出口增长138.3% 东盟成为宁夏第...
- 环球微资讯!乘联会:3月1-12日乘用车市场零售41.4万辆 同比下降17%
- 全球今日报丨投资人出现在台州
- 全球滚动:国家外汇管理局:未来我国外汇市场有基础、有条件保...
- 全省第一!宜宾临港经开区上榜
- 当前讯息:关注3·15 | 四川将深入实施“三品一创”消费提...
- 全球热讯:2月全国建材家居景气指数:建材家居卖场销售额同比...
- (经济)山东:电力大数据助力就业服务更便捷精准_关注
- 世界热头条丨国家发改委:提振消费信心 今年将做好四方面工作
- 焦点资讯:花20元赌100万,这个又火了的「老头乐」能实现我的...
- 广东埃力生获超亿人民币投资,中国石化资本投资
- 全球新消息丨全球ADC行业*并购案浮现,潜在中国赢家浮出水面
- 个性化分期后还能再延期吗?个性化分期办理流程介绍
- 当前热文:耐克、阿迪们也开始卖不动了?
- 停息挂账后还能延期吗?停息挂账具体流程介绍
- 房贷延期办理要个人征信吗?房贷延期后征信显示什么?
- 办网贷延期要个人征信吗?网贷延期后征信显示啥?
- 个性化分期要征信报告吗?个性化分期后征信会变吗?
- 申请房贷延期有时间要求吗?办房贷延期需满足哪些条件?
- 每日聚焦:健康科技企业「MEDWING」完成4400万欧元C轮融资,...
- 个性化分期在什么时候申请?办理个性化分期的条件是什么?
- 网贷延期什么时候申请?网贷延期的办理条件是什么?
- 挂账停息有申请时限吗?停息挂账申请需满足哪些条件?
- 信用卡停息挂账可以续期吗?信用卡停息挂账怎么办理?
- 2022年末我国金融业机构总资产超419万亿,同比增9.9%
- 报名踊跃!2022青岛年度经济成就宣传发布活动火热进行中
今日要闻
- 信心·力量 贯彻落实全国两会精神|开进春天的南外滩“金融直通车”
- 统计局网站突然改版,有哪些信号值得关注?
- 世界速讯:2022年宁波各县市区GDP排行榜 鄞州排名第一 北仑排名第二
- 全球微头条丨2023年第一次自治区重大项目政金企现场对接会在南宁举行
- 世界播报:广西:打造金融服务“信息融合”新格局
- 国家能源局:2月份全社会用电量同比增长11.0% 天天速看
- 环球观热点:亚布力论坛年会暨黑龙江产业投资与开放合作大会明日召开 500嘉宾齐聚共话发展新机遇
- 全市金融工作座谈会召开 每日资讯
- 中信证券:消费复苏将是今年明确主题 建议配置运动、美妆、消费互联网等强势能赛道
- 关于全国最强的县级市昆山市和义乌市不可能设立地级市研究分析