MIT科技评论:讯飞星火被评为中国“最聪明”的大模型
国内“千模大战”下,谁是最聪明的大模型?《麻省理工科技评论》中国最新发布的大模型评测报告给出了答案。
(资料图片)
报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率排名第一,在此次评测中表现突出,以81.5分(百分制计)的成绩在本次评测中登顶,荣获“最聪明”的国产大模型称号。
大模型评测综合得分率
4个大模型各项能力雷达图
《麻省理工科技评论》中国从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,力图评出“最聪明”的国产大模型。选取了“讯飞星火”“百度文心一言”“商汤商量”“阿里通义千问”作为中文大模型平台的代表,展开系统、科学的评测。
本次评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类,126个二级分类,290个三级标签,并针对问题的丰富性和多样性做了优化。
在题目类型上,为了兼顾定量、定性的评价与测试,设置了“单选”“多选”“填空”“简答”4种题型,分别有145道、138道、136道和181道。大模型评测体系使用盲评方式,客观评估国产大模型的聪明程度。
作为“最聪明”的大模型的基础能力,语言专项评测包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等61个二级分类,题型则以简答为主。结果显示,讯飞星火以85.73%的得分率排名第一,明显高于平均值。
语言专项评测得分率
数学专项评测,是“最聪明”大模型必不可少的评测维度。本次评测包含代数、几何、解方程、复杂数学、统计学等 9 个二级分类,以选择题为主。
其中,讯飞星火以77.75%的得分率名列第一,远高于平均得分率 56%,其他平台得分率基本相当。报告称,在大模型普遍“数学不好”的情况下,讯飞星火这一成绩颇为难得,其在数学专项上的领先同样体现在二级分类的评分结果上,在77.8%的二级分类中得分率第一,远超其他平台,初步判断其擅长几何与情景应用。
数学专项评测得分率
作为体现大模型“聪明程度”不可或缺的“硬核”部分,理科综合评测包含表格问答、化学、生物、物理、医学 5 个二级分类,题型上以单选和简答为主。
评测结果中,讯飞星火78.50%的得分率排名第一。另外,讯飞星火在理科综合大类下 80% 的二级分类评测中得分率为第一,化学与生物较为突出。
理科综合评测得分率
逻辑思维也是“最聪明”大模型的重要体现,本次逻辑思维评测在逻辑推理、思维链等方面设计了较多的题目,包含类比、常识推理、空间方位、演绎推理、逻辑谬误检测、因果推理等 19 个二级分类,题型上相对平均,其中填空题最多,多选题最少。
在逻辑思维题目中,讯飞星火以81.25%的得分率名列第一,明显高于72.6%的平均值。此外,讯飞星火在逻辑思维63.2%的二级分类问题上得分率第一。逻辑思维对于大模型真正理解物理世界相当重要。
逻辑思维评测得分率
编程能力是大模型比较高阶的能力,本次的编程能力评测包含 ASCII、ASCII码识别、Python、代码、代码修正、计算机 6 个二级分类,其中 Python 主要以简答形式评估大模型的代码生成能力和正确率,其他则以客观题的形式考察。
结果显示,讯飞星火80%的得分率明显高于 71%的平均值,其他平台得分率基本相当。值得一提的是,在许多人关心的生成代码的简答题单项上,讯飞星火的得分率高达82%,远高于其他平台,表现颇为亮眼。
编程能力评测综合得分率
作为比较难的评测维度,综合知识对大模型的“聪明”程度要求也很高,涉及的题目较杂,包含百科问答、常识、科学知识、事实问答、工作技巧、谜语等13个二级分类,题型以多选为主。
在综合知识评测上,讯飞星火以 80.61%的得分率排名第一,在84.6%的二级分类上得分率第一,初步显示出在百科问答和历史人文上的“过人之处”。
综合知识评测得分率
报告指出,在本轮大模型评测中,讯飞星火以 81.5分的成绩拔得头筹,成为“最聪明”的国产大模型。
讯飞星火在编程能力、理科综合、逻辑思维、数学专项、语言专项和综合知识这 6 个一级大类中得分率排名第一,在此次评测中表现十分全面,尤其是在代码生成、数学能力、理科与逻辑等方面优势明显,是本次“最聪明的理科生”。
值得一提的是,从题型角度来看,主观简答题中讯飞星火凭借83.98%的得分率位居第一;而在客观题上,讯飞星火以75.7%的得分率排名第一,在主客观题型中均有良好表现。
标签:
您可能也感兴趣:
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 19日人民币对美元汇率中间价报7.0025
- 至纯科技拟募集资金总额不超过11亿元 补充流动资金
- 东岳硅材股价大涨收深交所关注函 要求说明是否与公司基本面匹配
- 商务部:上半年我国服务进出口达2.37万亿元 同比增长6.7%
- 中南建设上半年实现营业收入384.8亿元 综合毛利率16.31%
- 中电光谷上半年股东利润约为1.09亿元 同比下降9.09%
- 海峡石油化工今年上半年收入约3.47亿港元 同比减少92.89%
- 山西焦化股票交易异常波动 未来焦炭产品价格走势存在不确定性
- 日清食品拟在公开市场回购不超约1.07亿股股份 总金额最高为1...
- 新三板公司和天下拟A股IPO 上半年净利润3735.34万元
精彩推送
- 两位北大90后创业,深势科技完成新一轮超 7 亿元融资
- 知乎盐言故事推出「她故事」专题活动,引发女性新职人共鸣
- MIT科技评论:讯飞星火被评为中国“最聪明”的大模型
- 不知住哪儿的中东土豪,难倒中国物流公司
- 稚晖君半年干出个人形机器人
- ARM霸权下:高通的叛逃与国产厂商的无奈
- 双塔食品公布半年报 上半年净利亏损6838万
- 呈梯次发展格局,京粤沪位列前三!2023中国数字经济发展指数...
- 车载光学业务“加速跑” 光峰科技2023年上半年净利润大增63%
- YINER音儿携手品牌代言人刘涛演绎秋冬诗意优雅
- 整治低价竞争!上海多部门联合约谈20家网约车平台、打车平台
- 《英雄联盟》玩家抗议新的扭蛋系统,该系统将重新着色的化妆...
- 茶百道上市「三道槛」
- 抖音搅局跨境电商
- 妙鸭满月,内容加磅,阿里大文娱务实也务远
- 从川渝走出来的茶百道,在蜜雪冰城和喜茶的夹缝中求生
- 旅游一天盖800个章,唐僧的通关文牒都没我夸张
- 完美无缺的名侦探(关于完美无缺的名侦探介绍)
- 二季度货币政策执行报告政策来了!定调积极,释放了哪些利好?
- 山西省省属企业低效无效(闲废)资产处置平台上线
- 如何发挥陕西特色优势,为数字经济高质量发展赋能?建议来了→
- 看江苏经济“沉浸式”升级 “秘诀”竟在此!
- 上半年 楚雄州社会消费品零售总额增长12.1%
- 联想未来还会“想什么”
- 兴民智通8月18日快速回调
- 手机有没有必要贴膜科学的解释(手机有没有必要贴膜)
- 端侧AI,如何化解国内算力之困?
- GDP增速全省倒数,「世界工厂」东莞站在十字路口
- OpenAI成立以来首笔收购:买下一个「神秘」8人公司
- 全球化速度超极兔的物流出海小巨头
- 蘇从哪里来|无锡梅里遗址,为“泰伯奔吴”提供新线索
- 全面注册制实施满半年 11家企业IPO21天过会
- 央行、外汇局:人民币汇率在合理均衡水平上保持基本稳定
- 莫斯科传出“巨大爆炸声” 俄国防部:击落一架乌军无人机
- 亚士创能:对碧桂园无应收账款等 已停止向其直接供货业务
- 降本增效已见成果,京东还需要更多增长点
- 数字人的表里,仰算力之鼻息
- 特评 | 这种促消费扩内需的“移山拔河”不妨多来一些
- 视觉中国再陷风波:打击「碰瓷式维权」刻不容缓
- 养生的年轻人,自己给自己「治病」
- 电车淘汰油车,悬了
- 这11种行为,有奖!
- 中国人民银行广东省分行挂牌,广东各地市分行同步挂牌
- 177.79亿!暑期档票房新纪录诞生
- 伤感经典语录短句(伤感经典语录短句大全)
- 东土科技:融资净偿还111.09万元,融资余额2.73亿元(08-17)
- 免费洗头、夜市摆摊……海底捞还有多少「奇招」?
- 深圳正在消失的「小修小补」:补鞋起家,开店23年,攒下4套房
- 创新药企「阿斯利康」逆袭启示录
- 12问德甲新赛季之争冠篇:悬念能否再次保留到底?
- 深圳市地方金融监管局:深化金融支持 服务民企再加码
- 如何正确看待本地生活直播?
- 视频监控芯片赛道的隐形冠军
- 李在明第四次到案受讯!弊案VS渎职,韩国朝野互相调查
- 打造你的专属数字人!即构科技上线“创新生产工场”
- 至今早6时,北京116条公交线受雨后道路和地质灾害风险影响
- 人民币对瑞典克朗汇率今天8月17日 瑞典克朗汇率多少?
- 人民币对泰铢今日汇率多少?8月17日泰铢汇率实时查询
- 8月17日人民币对土耳其里拉汇率多少?
- 人民币对韩元汇率多少?8月17日韩元汇率实时查询
- 人民币对卢布的汇率是多少?8月17日卢布汇率实时查询
- 上半年全市实际利用外资99亿美元
- 前7月上海进出口达2.45万亿元
- 1-7月安徽省一般公共预算支出完成5114.3亿元
- 数字人民币展示将引入潮流消费场景
- 稳固支持实体经济恢复发展
- 购物号被降权了怎么办(购物号)
- “安全员建在楼栋上”,马峦街道筑牢暑期安全防线
- 货车行驶过程突然起火,深汕消防紧急救援
- 侃股:A股也可以考虑取消印花税
- 幻想中的幻影碎片(15)
- ST中安:控股股东中恒汇志1.41%股份公开拍卖已被撤回
- MIT科技评论:讯飞星火被评为中国「最聪明」的大模型
- 7月基建投资大幅放缓详解,财政发力预期升温|财税益侃
- 刚刚!江西公布1-7月财政收支!
- 商务部答封面新闻:我国的服务贸易“朋友圈”日益扩大
- 高质量发展在申城丨数字经济贡献超三成财政收入,杨浦打造三...
- 美股三大指数集体高开
- 中西部地区真正发达城市只有武汉和长沙,成都谈不上发达
- 创投为智能驾驶产业“挂上加速档”,承泰科技向百亿级营收目...
- 做“巴铁”是什么体验?巴基斯坦小姐姐:从小就知道中国是朋...
- 茶百道赴港IPO,新茶饮上岸潮来了?
- 哔哩哔哩2023年Q2财报:毛利同比增长66%,调整后净亏损同比大...
- 造车新势力破解生产难题
- 影史第一!2023暑期档票房破纪录
- 卷王瑞幸,和它卑微的加盟商们
- 储能电池跌破成本线,行业大逃杀开启!
- 煤老板转行造纸,年入11亿冲刺IPO
- 国家东南区域应急救援中心预计于2024年上半年建成使用
- 市场监管总局发布燃气灶具等4类产品质量安全风险提示
- 船运大动脉告急!巴拿马运河大梗阻,气候危机重创全球海运
- 深圳城管、美丽深圳公益基金会携手腾讯,为培养社会应急力量...
- 为期三年的“公益诉讼守护美好生活”专项监督活动,检察机关...
- 博主:华为Mate60样机将于下周发出 新机已蓄势待发
- “2023 AI SaaS影响力企业”发布,联易融“AI+供应链金融”入榜
- 狂卖30亿,中国女人捧红的尼龙包
- 快时尚高端化,全都是泡沫?
- 二季度中国货币政策执行报告:要稳固支持实体经济恢复发展
- 共享办公等待救赎,WeWork快撑不住了
- 一加和小米打起来了