OpenAI发布GPT-4,ChatGPT再次进化 世界时讯
离发布仅仅四个多月,在ChatGPT展现了惊人的实力之后,OpenAI又扔下了一颗核弹:
GPT-4发布了。
(相关资料图)
在今天的博文中,OpenAI写到:
我们创建了GPT-4,这是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,提供文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平。
好像和上一代还是差不多?放心,这是OpenAI谦虚了。
在随后YouTube上进行的Live Demo中,OpenAI的总裁和联合创始人Greg Brockman展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的,GPT-4轻松拿下。
但这仅仅是表面,GPT再一次进化,虽然可能不是你想的那样。
新的模型:迭代优化
怎么样证明一个人比另外一个人更厉害?考试。
那怎么证明一个AI模型比另外一个更厉害?同样是考试。
OpenAI让GPT-4在参加了许多项人类的通用考试,结果证明,它在许多测试和基准测试中的表现比前一代确实大大提高:
根据他们的测试结果,GPT-4的SAT分数增加了150分,现在能拿到1600分中的1410分;
它能通过模拟律师考试,分数在应试者的前10% 左右,相比之下,GPT-3.5的得分在倒数 10% 左右;
在SAT阅读考试中和SAT数学考试中,GPT-4的成绩都能达到*的排名……
“我们花了6个月的时间使用我们的对抗性测试程序,以及在ChatGPT身上累积的经验教训来迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来*的结果。”OpenAI称。
“我们的 GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为*个我们能够提前准确预测其训练性能的大型模型。”
GPT-4还有了一个质的飞跃——可以开始处理图像。
经常使用ChatGPT的人肯定知道,它只能处理文本,但GPT-4开始接受图像作为输入介质。
在OpenAI提供的一个示例中,GPT-4准确地回答了几个网络meme为什么搞笑的问题(虽然解释得并不好笑)。
图源:《纽约时报》
在《纽约时报》提供的案例中,同样可以看出GPT-4可以同时解析文本和图像,这也使它能够解释更复杂的信息。不过,目前图像输入的权限尚未公开,所以目前还没看到更多例子来证明GPT-4在图像方面的处理能力。
在随后举行的Live Demo中,OpenAI也表示,还没有公开提供这部分技术,但已经在和一家名为Be My Eyes的公司进行合作,对方会使用GPT-4来构建服务。
此外,GPT-4已经开始具备一点点的幽默感。它已经可以讲出一些模式化的、质量不咋样的冷笑话——但是,至少它已经开始理解“幽默”这一人类特质。
图源:《纽约时报》
当然,更多的方面,GPT-4的改进是迭代性的。在随意的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。但是,当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令,可以更准确地解决难题。
比如说,北卡罗来纳大学教堂山分校的医学副教授兼心脏病专家Anil Gehi就向GPT-4描述了他一天前看过的一位患者的病史,包括患者术后出现的并发症被送往医院,描述中包含几个外行人无法识别的医学术语。
当Gehi医生问GPT-4应该如何治疗病人时,GPT-4给了他*的答案。“这正是我们对待病人的方式,”Gehi医生说。当他尝试其他场景时,GPT-4给出了同样令人印象深刻的答案。
当然另外一个好消息是,GPT-4对于英语以外的语种支持也得到了大大的优化。
许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言上的能力,OpenAI使用 Azure Translate,将一套涵盖57个主题的1.4万多项选择题的MMLU基准,翻译成了多种语言,然后进行测试。
在测试的26种语言中,有24种语言,GPT-4优于 GPT-3.5和其他大语言模型的英语语言性能。
其中中文达到了80.1%的准确性,而GPT-3.5的英文的准确性为70.1%,也就是说,在这个测试中,GPT-4对于中文的语言理解,已经优于此前ChatGPT对于英文的理解。
Live Demo:报税、写诗、写代码,无所不能
如果说着这些数据、案例,似乎还难以让人直观感受到GPT-4的真正实力,那么OpenAI的总裁和联合创始人Greg Brockman,就亲自在YouTube上进行了一把直播,来实时演示Live Demo中,展示了GPT-4的真正实力——总结文章、写代码、报税、写诗……GPT-3.5做不到的, GPT-4轻松拿下。
Greg Brockman展示了GPT-4的新的使用界面,左侧是系统框,可以规定AI的角色,以及整体的回答原则,中间则是对话框,可以输入具体的对话形态来对具体的内容进行调整、追问或者给出反馈。最右侧是一些参数设置。
在演示中,Brockman就使用使用左侧的“系统”框,让GPT-4相继成为“ChatGPT”、“AI编程助手”、“TaxGPT”,来解决不同的问题。
ChatGPT模式下,GPT-4可以处理超过2.5万字的文本,可以轻松地总结一篇超长文章的核心内容,比如把OpenAI今天发布的这篇讲述GPT-4的雄文总结要点。
甚至还可以像在演示中的那样,以各种奇怪的形式来提炼它——比如,以全是“G字母开头”的单词来总结。
或者要它把这些内容要点写成一首诗。
在“AI编程助手”模式下,还可以让它轻松写代码,生成一个网站,或者更复杂的,写一个基于Discord的机器人,如果出现错误,比如要调用比较新的API而出错,甚至也不需要向它解释,而是把错误代码复制进去,它就会自动纠错,生成新的代码。
或者要它变身成TaxGPT,要它基于税务法则,来计算出一对夫妻要缴纳多少税,而且还要把计算理由一步步写出来,让人们可以检阅。
对于GPT-4展示出的专业能力,GregBrockman大为赞赏,他表示那段税务文件,他自己读了半个小时也没有搞懂,然而GPT-4却可以很快给出答案。
或许这段不到一个小时的演示,才真正道出了GPT-4的强大之处——它不再仅仅是普通用户的“聊天机器人”,而将成为开发者手中的利器,在文本、编程、税务以及更多可以想见的领域,成为强大工具的开发基石。
从这一点来说,它比ChatGPT带来的影响,将更加广泛。
满嘴跑火车:还在跑,但是好一点
不得不提的是,尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性。最重要的是,它仍然不完全可靠——它仍然会大胆自信地编造事实,并且会出现推理错误。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。
在GPT-4公告中,OpenAI强调该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了 82%,产生真实事实的可能性提高了 40%,优于 GPT-3.5。”
这也意味着, GPT-4 相对于以前的模型来说,还是显著地减少了一本正经胡说八道的频率,而且用户千方百计提示它以让它说出被禁内容的成功率,也小了很多。
但是,这并不意味着系统不会出错或输出有害内容。例如,微软透露其Bing聊天机器人其实一直由GPT-4提供支持,但许多用户还是能够以各种创造性的方式打破 Bing的护栏,让机器人提供危险的建议、威胁用户和编造信息。
此外,GPT-4仍然是基于2021年9月之前的数据训练的,这也意味着它和前一代一样,仍然缺乏对于2021年9月之后的数据的有效理解。
“GPT-4 仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”OpenAI表示。
应用:面向开发者,越来越贵
当然,除了表现方面,还有一个明显的不同是,ChatGPT-4比以前的版本“更大”,这意味着它已经接受了更多数据的训练,因此运行起来也更加昂贵。OpenAI 只表示它使用了微软Azure来训练模型,但没有公布有关具体模型大小或用于训练它的硬件的详细信息。
这也意味使用它的成本越来越高。与ChatGPT不同的是,这个新模型目前还不能免费公开测试,虽然它鼓励开发者申请试用,但是将需要上等待名单。
新模型将提供给ChatGPT的付费用户ChatGPT Plus(每月20美元),也将作为API的一部分提供,允许开发者付费将AI集成到他们的应用程序中。OpenAI表示,多家公司已经将GPT-4集成到他们的产品中,包Duolingo、Stripe和Khan Academy等。
当然,如果你不是开发者或者付费用户,但是实在是想尝尝鲜,微软的Bing会是*的选择——Bing的AI聊天机器人,过去六周以来,已经开始使用GPT-4了。
你感觉到了吗?
标签:
您可能也感兴趣:
今日热点
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 新景智源完成近2亿元人民币A+轮融资,加速实体瘤TCR-T细胞治...
- OpenAI发布GPT-4,ChatGPT再次进化 世界时讯
- 环球信息:Meta第2轮万人大裁员!撤层级、砍项目、减岗位
- 河南人口和GDP,双双超过东北三省之和|当前速读
- 离职去摆摊的大厂人,薪资碾压前同事
- 今日报丨内外循环互促,供需协同发力!山东推动内外贸一体化发展
- 被低估的战场:比亚迪、哪吒卷过了日系车
- 2023年前两个月天津市居民存款增加超750亿元 世界视讯
- 前2个月四川外贸进出口总额逾1400亿元
- 改革开放初期招商引资,商人决定是否投资观察那些潜现象?
- 线下消费回归现新气象 消费者习惯正在重构
- 助力长三角高能企业,共话区域经济高质量发展-观察
- 2023消费复苏洞察及趋势展望报告重磅来袭 聚焦九大消费领域...
- 2023年“放心消费粤行动”民生实事正式启动
- 当前热讯:提升保险服务价值,平安健康险打通“家医+就医+理...
- 粤港澳大湾区的前世今生,听港中大(深圳)教授细细道来........
- 工信部提出壮大数字经济核心产业;全球6G技术大会召开在即丨...
- 提振信心成两会热点关注 专家:助民企促消费是关键 每日热闻
- 近半省份公布人口数据:福建去年常住人口比上年末增加1万人 ...
- 广州海关出台36项促进外贸高质量发展措施
- 乐有家面向社会重金征集广告语
- “一处失信、处处受限”,深圳21家失信企业被市消委会“点名...
- 香港中文大学(深圳)新体育场馆正式启用-每日快看
- 焦点消息!央行上海总部:2月上海人民币贷款增加415亿元
- 东莞新增700个千万富豪!
- 湖北又一城市崛起,经济增速远超武汉,有望成为二线城市
- 世界热推荐:见证2023|消费提振年,消费金融行业实现良好开局
- 热点在线丨深北莫2022届本科毕业生都去哪儿了?一图读懂就业...
- 首届深港澳青少年创意设计大赛走进坪山实验,“麒麟少年”用...
- 15省份2022年人口数据出炉:福建出生人口跌破30万-全球热点
- 广西高质量建设中国—东盟金融城,今年争取新增金融机构80家...
- 一天清空68户173人!南园街道合力攻坚,跑出危房“清楼”加速...
- 乘联会:2023年2月新能源车零售同比增长60.9%
- 前2月四川实现网络交易额7245.6亿元 同比增长19.6%
- 当前速递!前2个月四川外贸出口保持增长
- 首家企业入驻琼港经济合作三亚示范区投资促进中心 每日报道
- 机构报告: 持续创造新消费场景 进一步激发消费市场动能
- 腾讯会议:免费用户最高单场100人最长60分钟,“300人不限时...
- 当前动态:央行上海总部:2月末上海人民币贷款余额同比增长9.7%
- 商务部:大力推进服务贸易数字化进程-全球讯息
- 每日快播:央行上海总部:2月份上海人民币个人定期存款增加96...
- 湾区金融大咖说⑤丨对话香港金发局行政总监区景麟:香港经济活...
- 央行上海总部:2月份上海人民币存款减少1084亿元-世界速递
- 上交所3月18日开展全面注册制发行业务通关测试和交易业务全网测试
- 速讯:泉州市区居民消费价格2月同比上涨0.9%
- 宁夏:力争2023年数字经济占GDP比重达到36%左右
- 全球挑战来袭!多方求助目光望向中国,日本已率先尝到甜头 ...
- 2023年招商引资情况调研:65%的受访者「看涨」,增量密码在哪...
- 央行上海:2月末人民币贷款余额10万亿元 同比增长9.7% 全球报道
- 叮咚买菜背叛生鲜电商-短讯
- 微速讯:香港反向代购,火了
- 马斯克:特斯拉和比亚迪之间的关系是积极的
- 硅谷银行破产警示录 世界时快讯
- 网贷延期需要满足什么要求?如何向平台申请网贷延期?
- 哪些银行允许个性化分期?个性化分期自己怎么去申请?
- 字节跳动十万员工困在数据里
- 信用卡个性化分期的条件是什么?个性化分期好申请吗?
- 房贷延期还款的条件是什么?房贷延期还款好申请吗?
- 房贷延期还款需要什么条件?房贷延期还款成功率高吗?
- 创业失败可以协商停息挂账吗?协商停息挂账的流程介绍
- 哪些人可以申请个性化分期?个性化分期怎么办理?
- 网贷延期还款的政策是什么?延期还款怎么申请?
- 信用卡分期的政策是什么?满足什么条件可以停息挂账?
- 停息挂账办理流程是什么?停息挂账需要提交啥材料?
- 协商个性化分期需要怎么做?个性化分期需要什么材料?
- 常州冲刺“万亿城”,武进拉满弓强支撑 全球热推荐
- 宁夏:力争2023年数字信息产业产值达850亿元_全球热点评
- 常州冲刺“万亿城”,武进拉满弓强支撑
- 1-2月社零总额达21.6亿元!湘龙涌春潮 “拼”出新成绩
- 前2个月四川外贸进出口总额逾1400亿元 民营企业成为第一大贸易主体
- 当教育行业踏入元宇宙的大门,线上课程能与线下课程竞争吗?...
- 语言大模型企业「澜舟科技」完成Pre-A+轮融资,推出孟子MChat...
- 家具人回流中部小城,2000亿产业带抖音狂飙-天天新视野
- 网易LOFTER风波警醒了谁?
- 精选!圣德医养完成数亿元A轮融资,中国通用技术集团资本投资
- 建设银行外汇牌价表查询2023.03.14
- 农业银行外汇牌价表查询?3月14日人民币美元汇率多少?
- 2023314中国银行外汇牌价表一览 人民币汇率中间价
- 每日资讯:汇丰银行外汇牌价表查询 3月114日汇丰银行人民币...
- 招商银行外汇牌价表3月14日 招行人民币汇率多少?
- 香港会展业全面复常,环球资源4月香港展将迎全球超6万专业买...
- 标普:对中国的经济再平衡和开放持谨慎乐观态度
- 减轻重疾“痛感”,保险专家建议消费者健康风险管理“两步走”
- 消费投诉在加速集聚,四个省市最为明显
- 每日消息!外媒:中国经济出现“非常迅速”的反弹
- 数读|收入增速放缓 2022年人均消费支出24538元
- 全球快资讯丨梦回2008,「房间里的大象」威胁美国科技圈
- 当前速读:AIGC如何改变Web3的未来?
- 董洁带货,救火小红书? 快讯
- 深圳持续发力推进教育数字化转型 深度赋能基础教育高质量发...
- 巨头平台激战本地生活,商家怎么选?_全球消息
- 走出「大女主」模式后,「她剧集」亟需新的「爆款密码」-当前...
- 环球快消息!避免危机、稳中回升 中国成为经济复苏最好国家
- 天天快消息!嘉兴富裕家庭公布:拥有600万资产47800户,亿元...
- 全球视讯!人均31370!你达标了吗?
- 货币汇率排行榜2023.03.14 前十世界货币有哪些?-全球看热讯
- 全球要闻:消费者维权意识强!广东省电信类、“考公”培训等...
- 市场监管总局:2022年为消费者挽回经济损失45.19亿元
- 高频经济数据揭示中国经济背后状况 | 消费不佳成经济增长的...
- 天天看点:国资委发文 207家公司剑指“世界一流”!