半年多过去了,ChatGPT的排名快「垫底」了
今天,笔者无意中刷到一张图片。
(资料图)
据该图片显示,OpenAI的GPT-4在11个大模型中(*名序号为0),已经排到了最后。还有网友配上了“GPT4:我的冤屈怎么诉?”的字样。
这不禁让人好奇,今年年初,ChatGPT爆火以后,其他公司才开始提大模型的概念。
这才半年多,GPT就已经“垫底”了?
于是,笔者想看看GPT排名到底咋样了。
测试时间不同
测试团队不同
GPT-4排第十一
从前文中图片上显示的信息来看,这个排名是出自C-Eval榜单。
C-Eval榜单,全称C-Eval全球大模型综合性考试测试榜,是由清华大学、上海交通大学和爱丁堡大学合作构建的中文语言模型综合性考试评估套件。
据悉,该套件覆盖人文、社科、理工、其他专业四个大方向,包括52个学科,涵盖微积分、线性代数等多个知识领域。共有13948道中文知识和推理型题目,难度分为中学、本科、研究生、职业等四个考试级别。
于是笔者查看了最新的C-Eval榜单。
C-Eval榜单的最新排名与前文中图片所显示的排名相符,排名前十一的大模型中,GPT-4排最后。
据C-Eval榜单介绍,这些结果代表zero-shot(零样本学习)或者few-shot(少样本学习)测试,但few-shot不一定比zero-shot效果好。
C-Eval表示,在其测试中发现许多经过指令微调之后的模型在zero-shot下更好。其测试的很多模型同时有zero-shot和few-shot的结果,排行榜中显示了总平均分更好的那个设置。
C-Eval榜单还注明了,大模型名字中带“*”的,表示该模型结果由C-Eval团队测试得到,而其他结果是通过用户提交获得。
此外,笔者还注意到,这些大模型提交测试结果的时间有很大差别。
GPT-4的测试结果提交时间是5月15日,而位居榜首的云天书,提交时间为8月31日;排第二的Galaxy提交时间为8月23日;排第三的YaYi提交时间为9月4日。
并且,排名前16的这些大模型,只有GPT-4的名字加了“*”,是由C-Eval团队测试的。
于是笔者又查看了完整的C-Eval榜单。
最新的C-Eval榜单一共收录了66个大模型的排名。
其中,名字带“*”,也就是由C-Eval团队测试的,只有11个,且提交测试的时间均为5月15日。
这些由C-Eval团队测试的大模型,OpenAI的GPT-4排第十一,ChatGPT排第三十六,而清华智谱AI的ChatGLM-6B排在第六十,复旦的MOSS排在了第六十四。
虽然这些排名可以看出国内的大模型发展势头的迅猛,但笔者认为,毕竟不是同一团队在同一时间进行的测试,不足以完全证明这些大模型谁强谁弱。
这就好比,一个班的学生,每个人的考试时间不同,答的试卷也都不一样,怎么能靠每个学生的分数比高低呢?
大模型开发者怎么说?
多家表示在中文等能力上超过ChatGPT
最近,大模型的圈子相当热闹。
又是百度、字节等8家公司大模型产品通过了《生成式人工智能服务管理暂行办法》备案,可正式上线面向公众提供服务。又是其他公司相继发布自家大模型产品。
那这些大模型的开发者又都是怎么介绍自家产品的呢?
7月7日,在2023世界人工智能大会“大模型时代的通用人工智能产业发展机遇以及风险”论坛上,复旦大学计算机科学技术学院教授、MOSS系统负责人邱锡鹏表示,复旦对话式大型语言模型MOSS在今年2月发布后,还在连续不停地迭代,“最新的MOSS已经能够在中文能力上超过ChatGPT。”
7月底,网易有道上线翻译大模型,网易有道CEO周枫公开表示,在内部的测试中,在中英互译的方向上,已经超越ChatGPT的翻译能力,也超过了谷歌翻译的水准。
8月下旬,在2023年亚布力论坛夏季高峰会上,科大讯飞创始人、董事长刘庆峰发表演讲时称,“讯飞星火大模型的代码生成和补齐能力已经超过了ChatGPT,其他各项能力正在快速追赶。当前代码能力的逻辑、算法、方法体系、数据准备已就绪,所需要的就是时间和算力。”
商汤近期的新闻稿中称,今年8月,新模型internlm-123b完成训练,参数量提升至1230亿。在全球51个知名评测集共计30万道问题集合上,测试成绩整体排名全球第二,超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型。
据商汤介绍,internlm-123在主要评测中,有12项成绩*。其中,在评测集综合考试中的agieval分数为57.8,超越gpt-4位列*;知识问答commonsenseqa的评测分数为88.5,*;internlm-123b在阅读理解的五项评测中成绩全部居榜首。
此外,在推理的五项评测中成绩*。
本月初,作业帮正式发布自研银河大模型。
作业帮表示,银河大模型在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示,作业帮银河大模型以平均分73.7分位居C-Eval榜首;同时在CMMLU榜单Five-shot和Zero-shot测评中分别以平均分74.03分及73.85分位列*,成为*同时在上述两大权威榜单平均分*的教育大模型。
昨天,百川智能宣布正式开源微调后的Baichuan 2-7B、Baichuan 2-13B、Baichuan 2-13B-Chat与其4bit量化版本。
百川智能创始人、CEO王小川称,经过微调之后的Chat模型,在中文领域,在Q&A问答环境,或者摘要环境里面,评价它的实际性能已经超过ChatGPT-3.5这样的闭源模型。
今天,在2023腾讯全球数字生态大会上,腾讯正式发布混元大模型。腾讯集团副总裁蒋杰称,腾讯混元大模型中文能力已经超过GPT-3.5。
除了这些开发者的自我介绍,也有一些媒体和团队对一种大模型进行评比。
8月上旬,清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》。报告显示,百度文心一言在三大维度20项指标中综合评分国内*,较优于ChatGPT,其中中文语义理解排名靠前,部分中文能力较优于GPT-4。
8月中旬,有媒体报道称,8月11日,小米大模型MiLM-6B现身C-Eval、CMMLU大模型评测榜单。截至当前,MiLM-6B在C-Eval总榜单排名第10、同参数量级排名第1,在CMMLU中文向大模型排名第1。
8月12日,天津大学发布《大模型评测报告》。报告显示,GPT-4和百度文心一言相较于其他模型综合性能显著*,两者得分相差不大,处于同一水平。文心一言已经在大部分中文任务中实现了对ChatGPT的超越,并逐步缩小与GPT-4的差距。
8月下旬,有媒体报道称,快手自研的大语言模型“快意”(KwaiYii)已开启内测。在最新的CMMLU中文向排名中,快意的13B版本KwaiYii-13B同时位列five-shot和zero-shot下的*名,在人文学科、中国特定主题等方面较强,平均分超61分。
通过上述内容可以看出,这些大模型虽然纷纷号称自己在某排名中居首,或者是在某某方面超越ChatGPT,但大多是在一些具体的领域表现优异。
另外,有一些综合评分超过了GPT-3.5或GPT-4,但GPT的测试是停留在5月的,谁能保证这近3个月的时间里,GPT没有进步呢?
OpenAI的处境
根据瑞银集团2月的一份报告显示,在ChatGPT推出仅两个月后,它在2023年1月末的月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。
但ChatGPT的发展也不是那么顺利。
今年7月,有不少GPT-4用户吐槽,与之前的推理能力相比,GPT-4的性能有所下降。
有些用户在推特以及OpenAI在线开发者论坛上指出了问题,集中于逻辑变弱、更多错误回答、无法跟踪提供的信息、难以遵循指令、忘记在基本软件代码中添加括号,只能记得最近的提示等等。
8月,又有一份报告称,OpenAi可能处于潜在的财务危机中,可能于2024年底破产。
报告中表示,OpenAI仅运行其人工智能服务ChatGPT每天就要花费约70万美元。目前,该公司正试图通过GPT-3.5和GPT-4实现盈利,但是还尚未产生足够的收入实现收支平衡。
不过,OpenAI或许也有新的转机。
日前,OpenAI宣布,将于11月举办首届开发者大会。
虽然OpenAI表示不会发布GPT-5,但OpenAI称将有来自世界各地的数百名开发人员与OpenAI团队一起,提前一览“新的工具”,并且交流想法。
这可能意味着,ChatGPT已经取得了新的进步。
另据澎湃新闻报道,8月30日,一位知情人士透露,通过销售AI软件和驱动其运行的计算能力,OpenAI预计将在未来12个月内实现超过10亿美元的收入。
今天,又有媒体报道称,本月晚些时候摩根士丹利将推出一款和OpenAI共同研发的生成式人工智能聊天机器人。
和摩根士丹利的银行家打交道的人,非富即贵。如果这款即将推出的生成式人工智能聊天机器人能给摩根士丹的客户带来不同的体验,对OpenAI来说,也许会是一个巨大的收获。
人工智能时代的到来,已经势不可挡。至于到底谁更胜一筹,不能光靠自己说,还得让用户来打分。我们也相信国内大模型一定会、一定能在各具体能力、综合能力上赶超ChatGPT。
标签:
您可能也感兴趣:
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 三个月融两轮,膜科学平台「关怀医疗」完成超亿元C+轮融资
- 半年多过去了,ChatGPT的排名快「垫底」了
- 浙江省加快数字经济健康发展研讨班在义乌市举办
- 全省唯一!蜀山区荣获“2023中国楼宇经济创新生态示范城区”
- 金水区上榜中国楼宇经济标杆城区十强 较去年提升两个位次
- 出口开始回暖了吗?光大宏观:基数压力开始缓解,外需下行压...
- 河北数字经济蓬勃发展
- 【每周经济观察】鼓励引导民企用好政策创新工具
- 河北数字经济蓬勃发展
- 金观平:协同推进数字产业化和产业数字化
- 金水区上榜中国楼宇经济标杆城区十强
- 猪价反弹叠加油价上涨!机构预计8月CPI回升
- 中国各省市的经济实力究竟有何差距?
- 海关总署:前8月我国外贸进出口总值27.08万亿元
- 广东整合助推经济竞争力:五城GDP大涨
- 人民币对土耳其里拉的汇率是多少?9月7日土耳其里拉汇率实时查询
- 人民币对卢布汇率是多少?9月7日卢布汇率实时查询
- 人民币对泰铢今日汇率多少?9月7日泰铢汇率实时查询
- 人民币对瑞典克朗汇率是多少?9月7日瑞典克朗汇率实时查询
- 人民币对韩元汇率是多少?9月7日韩元汇率实时查询
- 广东印发《促消费专项行动政策措施》对购买九大类家电给予补贴
- 2023中国百强县:陕西上榜2席!
- 十城竞争“世界显示之都”,合肥深圳成都三城暂时领先
- 山东省经济发展的优势和潜力
- 北京各区支柱产业结构差异及特点分析
- 服贸会释放重要金融政策信号,广东金融创新发展如何纵深推进?
- 我国已与29个国家建立双边电子商务合作机制
- 大鹏新区举办“躬耕教坛 强国有我”第39个教师节庆祝大会
- 以青春磅礴之力,写新时代之答卷!深圳鹏城技师学院开学第一...
- 全国首批试点城市,长春入选
- 全球财经连线|全球环境科学家大会召开,共商全球环境治理
- 全球连线|国际人士热议:中国仍是世界经济“重要引擎”
- 中希航运金融研讨会在希腊举办
- 当代年轻人:我不敢花钱,但也不想攒钱了
- 四大行明确存量首套住房贷款利率调整事项
- 8月末我国外汇储备规模为31601亿美元
- 大鹏新区葵涌街道举办2023年招商大会,“三大服务基地”揭牌亮相
- 南园小学“开学第一课”,点亮平安“开学季”
- 今年上半年广东举办展览会面积恢复,超过2019年同期水平
- 数据中看到发展 十年间我国金融业进一步扩大开放
- 数据中看到发展 十年间我国金融业进一步扩大开放
- 全国数字百强,粤东西北第一!湛江“数字化”风口上起舞
- 8月份进出口环比增长3.9%
- 科技融入烟火气,智能杆助力深圳“外摆经济”
- 经济洞察(第18期)|生产端高频数据表现趋稳,钢材、农产品...
- 广东经济:守住第一还需破解隐忧
- 广东省VS江苏省:谁是中国经济新霸主?
- 广东为何GDP增速低却居全国首位?
- 四川省中等城市的潜力值得关注
- 跳水拜拜说「拜拜」, 天津的热情不散
- 深圳保险业探索智能网联汽车保险投保和理赔规范
- 罗永浩「真还传」难收尾,投资人郑刚死磕欲对簿公堂
- 海底捞「悄咪咪」开了家露营火锅店
- 凤凰街道职康中心开展培训引导居民增强消防安全意识
- 多地分布式光伏频现「急刹车」
- 普惠金融贷款余额达3200亿元!深圳建行再推普百业惠万企系列活动
- 焦虑的企服人,抱团治疗内耗
- 碳访录|国家金融监督管理总局叶燕斐:可持续投资潜力最大的...
- 开放引领发展 合作共赢未来 2023年中国国际服务贸易交易会圆满落幕
- 9.9元的咖啡时代,最慌的是「三顿半们」
- 热钱涌向「直接空气碳捕集」,是时候聊聊新一代CCUS了
- 谁在捧杀《逃出大英博物馆》?
- 巴西税改35天,拉美电商迎变局
- 我在澳洲送外卖:超时、差评不罚款
- 佛山建设银行以强力金融服务支撑佛山推进现代化建设
- 全省唯一!青岛市崂山区荣膺“中国楼宇经济营商环境示范城区”
- 经济普查 |【统计微课堂】带您了解五经普投入产出调查
- 商务部:我国数字经济国际朋友圈不断扩大
- 2023全国百强城市排名
- 长沙岳麓区教育局通报“学生被老师打破头骨”:校党总支书记...
- 8月中国进出口总值同比下降2.5%
- 南财话你知丨国家金融监管总局正式启动税延养老保险与个人养...
- 广西将举办“投资中国—魅力广西月”活动
- 潍观丨向海图强,潍坊正在破浪前行!
- 商务部:1-7月中澳贸易额同比增5.4%
- 中国芯片制造关键环节跑出一个IPO,估值80亿
- 畅游海洋,放飞童心——华夏街社区暑期特色活动圆满完成
- 广东印发促消费专项行动政策措施,对消费者购买九大类家用电...
- 胡润首次发布中国能源民营企业100强 宁德时代、比亚迪领跑榜单
- 人民币对马来西亚林吉特汇率是多少?9月6日马来西亚林吉特汇...
- 英镑对人民币汇率多少钱?9月6日英镑汇率实时查询
- 香港教育局:本学年将举办5轮香港基本法及香港国安法测试
- 最火减肥药,市值30000亿
- 东南亚电商平台大促季混战将起
- 坪山街道:凝聚党群合力 提升治理效能
- 日元对人民币汇率换算多少?9月6日日元对人民币汇率查询
- 华平投资首支人民币基金,30亿
- 新西兰元对人民币汇率今日汇率多少?9月6日新西兰元汇率实时查询
- 瑞士法郎对人民币汇率是多少?9月6日瑞士法郎汇率实时查询
- Live House没有夏天
- 美酒加咖啡,请你喝一杯,茅台与瑞幸9月4日上市联名款咖啡
- 全力以赴应对台风“苏拉” 南山开放室内避难场所108个
- 9月1日 10:43分 华融化学(301256)股价快速拉升
- 浅谈体制内的钱是怎么使用的
- 超强台风“苏拉” 将在广东沿海登陆 国家海洋预报台拉响海...
- 制造业PMI连续回升,经济恢复态势稳定
- 将澳门2023年经济总量预测值上调至3300亿澳门元
- 中信证券:预计制造业景气回暖趋势将延续 三季度或过渡到被...
- 明起,北京电动自行车室内停放充电处罚有法可依
- 深圳市三防办:防风应急响应提升为二级,全市4.1万三防责任人...