MIT科技评论:讯飞星火被评为中国「最聪明」的大模型
国内“千模大战”下,谁是最聪明的大模型?《麻省理工科技评论》中国最新发布的大模型评测报告给出了答案。
报告显示,在8个一级大类的600道题目的测试和盲评中,讯飞星火认知大模型V2.0在6个大类中得分率*,在此次评测中表现突出,以 81.5 分(百分制计)的成绩在本次评测中登顶,荣获“最聪明”的国产大模型称号。
图:大模型评测综合得分率
(资料图片仅供参考)
图:4个大模型各项能力雷达图
《麻省理工科技评论》中国从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,力图评出“最聪明”的国产大模型。选取了“讯飞星火”、“百度文心一言”、“商汤商量”、“阿里通义千问”作为中文大模型平台的代表,展开系统、科学的评测。
本次评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共 8 个一级大类,126 个二级分类,290 个三级标签,并针对问题的丰富性和多样性做了优化。
在题目类型上,为了兼顾定量、定性的评价与测试,设置了“单选”、“多选”、“填空”、“简答”4个题型,分别有 145 道、138 道、136 道和 181 道。大模型评测体系使用盲评方式,客观评估国产大模型的聪明程度。
作为“最聪明”的大模型的基础能力,语言专项评测包含对话理解、多语种、讽刺、古诗词理解、文本生成、要点总结、情感分析、语义判断等 61 个二级分类,题型则以简答为主。结果显示,讯飞星火 85.73%的得分率*,明显高于平均值。
图:语言专项评测得分率
数学专项评测,是“最聪明”大模型必不可少的评测维度。本次评测包含代数、几何、解方程、复杂数学、统计学等 9 个二级分类,以选择题为主。
其中,讯飞星火以77.75% 的得分率名列*,远高于平均得分率 56%,其他平台得分率基本相当。报告称,在大模型普遍“数学不好”的情况下,讯飞星火这一成绩颇为难得,其在数学专项上的*同样体现在二级分类的评分结果上,在 77.8%的二级分类中得分率*,远超其他平台,初步判断其擅长几何与情景应用。
图:数学专项评测得分率
作为体现大模型“聪明程度”不可或缺的“硬核”部分,理科综合评测包含表格问答、化学、生物、物理、医学 5 个二级分类,题型上以单选和简答为主。
评测结果中,讯飞星火 78.50% 的得分率*。另外,讯飞星火在理科综合大类下 80% 的二级分类评测中得分率为*,化学与生物较为突出。
图:理科综合评测得分率
逻辑思维也是“最聪明”大模型的重要体现,本次逻辑思维评测在逻辑推理、思维链等方面设计了较多的题目,包含类比、常识推理、空间方位、演绎推理、逻辑谬误检测、因果推理等 19 个二级分类,题型上相对平均,其中填空题最多,多选题最少。
在逻辑思维题目中,讯飞星火 81.25%的得分率名列*,明显高于 72.6% 的平均值。此外,讯飞星火在逻辑思维 63.2% 的二级分类问题上得分率*。逻辑思维对于大模型真正理解物理世界相当重要。
图:逻辑思维评测得分率
编程能力是大模型比较高阶的能力,本次的编程能力评测包含 ASCII、ASCII码识别、Python、代码、代码修正、计算机 6 个二级分类,其中 Python 主要以简答形式评估大模型的代码生成能力和正确率,其他则以客观题的形式考察。
结果显示,讯飞星火 80% 的得分率明显高于 71%的平均值,其他平台得分率基本相当。值得一提的是,在许多人关心的生成代码的简答题单项上,讯飞星火的得分率高达 82%,远高于其他平台,表现颇为亮眼。
图:编程能力评测综合得分率
作为比较难的评测维度,综合知识对大模型的“聪明”程度要求也很高,涉及的题目较杂,包含百科问答、常识、科学知识、事实问答、工作技巧、谜语等 13 个二级分类,题型以多选为主。
在综合知识评测上,讯飞星火 80.61% 的得分率*,在 84.6% 的二级分类上得分率*,初步显示出在百科问答和历史人文上的“过人之处”。
图:综合知识评测得分率
报告指出,在本轮大模型评测中,讯飞星火以 81.5 分的成绩拔得头筹,成为“最聪明”的国产大模型。
讯飞星火在编程能力、理科综合、逻辑思维、数学专项、语言专项和综合知识这 6 个一级大类中得分率*,在此次评测中表现十分全面,尤其是在代码生成、数学能力、理科与逻辑等方面优势明显,是本次“最聪明的理科生”。
值得一提的是,从题型角度来看,主观简答题中讯飞星火凭借 83.98% 的得分率位居*;而在客观题上,讯飞星火以 75.7% 的得分率*,在主客观体型中均有良好表现。
此外,就在8月12日,新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》中,讯飞星火V1.5以总分1013分位列本次国产主流大模型测评榜首位,在四大评测维度中的智商指数和工具提效指数两个维度获得*,《报告》认为讯飞星火“在工作提效方面优势明显”。
在刚刚过去的8月15日,讯飞星火认知大模型V2.0如期发布,进一步突破代码能力和多模态能力。技术获得重大突破的同时,搭载讯飞星火V2.0核心能力的应用和产品也越来越丰富:既有辅助程序员高效工作的智能编码助手iFlyCode1.0、能够进行视频创作的讯飞智作2.0、能够便捷搭建轻应用的教育数字基座应用开发助手,还有帮助教师设计教学活动、一键生成课件的星火教师助手、面向英语学习者口语练习的星火语伴2.0,讯飞AI学习机也升级AI 1对1智能编程助手和AI 1对1创意绘画伙伴。此外,科大讯飞还和华为联合发布星火一体机,让每一家企业都有机会构建专属大模型。
标签:
您可能也感兴趣:
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- MIT科技评论:讯飞星火被评为中国「最聪明」的大模型
- 7月基建投资大幅放缓详解,财政发力预期升温|财税益侃
- 刚刚!江西公布1-7月财政收支!
- 商务部答封面新闻:我国的服务贸易“朋友圈”日益扩大
- 高质量发展在申城丨数字经济贡献超三成财政收入,杨浦打造三...
- 美股三大指数集体高开
- 中西部地区真正发达城市只有武汉和长沙,成都谈不上发达
- 创投为智能驾驶产业“挂上加速档”,承泰科技向百亿级营收目...
- 做“巴铁”是什么体验?巴基斯坦小姐姐:从小就知道中国是朋...
- 茶百道赴港IPO,新茶饮上岸潮来了?
- 哔哩哔哩2023年Q2财报:毛利同比增长66%,调整后净亏损同比大...
- 造车新势力破解生产难题
- 影史第一!2023暑期档票房破纪录
- 卷王瑞幸,和它卑微的加盟商们
- 储能电池跌破成本线,行业大逃杀开启!
- 煤老板转行造纸,年入11亿冲刺IPO
- 国家东南区域应急救援中心预计于2024年上半年建成使用
- 市场监管总局发布燃气灶具等4类产品质量安全风险提示
- 船运大动脉告急!巴拿马运河大梗阻,气候危机重创全球海运
- 深圳城管、美丽深圳公益基金会携手腾讯,为培养社会应急力量...
- 为期三年的“公益诉讼守护美好生活”专项监督活动,检察机关...
- 博主:华为Mate60样机将于下周发出 新机已蓄势待发
- “2023 AI SaaS影响力企业”发布,联易融“AI+供应链金融”入榜
- 狂卖30亿,中国女人捧红的尼龙包
- 快时尚高端化,全都是泡沫?
- 二季度中国货币政策执行报告:要稳固支持实体经济恢复发展
- 共享办公等待救赎,WeWork快撑不住了
- 一加和小米打起来了
- 美国:汽车电动化路上磕绊多
- 充电费暴涨1倍,开电车比开油车贵?电车淘汰油车,悬了
- 腾讯2024年校园招聘正式启动,开放五大类岗位需求
- 富豪们的「爱情买卖」
- 广州,又杀出一匹汽车黑马
- 扭亏为盈,阿里大文娱「站起来」了?
- 国产存储的好日子来了?
- 小儿肺不张(关于小儿肺不张介绍)
- 23家北交所公司接受机构调研,民士达获68家机构调研居首
- 周一下单周末收货!菜鸟国际快递英国专线“升级版”来了
- 德邦证券给予青鸟消防买入评级,Q2业绩表现亮眼,经营质量稳...
- 情系中国足球未来,平安倾力守护“绿茵场之梦”
- 北京设立百亿机器人产业基金
- “攒金豆”成年轻人理财新宠,这种方式靠谱吗?
- 菜鸟业绩亮了,新一轮物流比拼走向何方?
- 武汉招商凶猛
- 天府之国走出的茶百道,如何冲刺港股IPO
- 小红书的十年
- A股药企十年销售费用总额超2.2万亿:钱花去了哪里?谁占比最高?
- 著名数学家丘成桐现身深中,勉励学子“立志做大学问”
- “互联网+”创新创业大赛广东省分赛鸣金,深大“水利万物”夺冠
- Here We Go!罗马诺:摩洛哥门将布努加盟利雅得新月!转会...
- 2023廊坊文安县洪涝灾害怎么联络银行帮扶?
- 台今年经济增长“保2”恐无望
- 上半年厦门市各区GDP排行榜 翔安区增速最快 湖里区最慢
- 助力银发经济 千尺学堂在线兴趣课程充实银发族精神文化生活
- 螺蛳粉和五菱“神车”,也扶不起柳州?
- 半年净增16.49万人!这个一线城市的人口,突然暴增
- 泛亚环保(00556.HK)将于8月29日举行董事会会议以审批中期业绩
- 网文一哥也有烦恼
- 隐身的薇娅,想革「李佳琦们」的命
- 茶百道上市的背后往事
- 年卖8亿杯,年轻人又喝出一家茶饮IPO
- 网思科技完成近亿元A轮融资,广州产投领投
- 全周期服务护航租房体验,58同城“长租公寓”聚焦精品房源
- 工业和信息化部:加快构建绿色制造体系和绿色低碳技术支撑体系
- 特报清言|党纪国法从不相信“戏精”
- 华为MateBook 14s 2023 32GB大内存版发布:顶配13代i9卖9499元
- 磁擎新能源完成超千万人民币天使轮融资,中科创星领投
- Web3安全公司Aegis获数百万美元种子轮融资
- 泰科天润完成数亿元E轮投资,海尔创投出手
- 盒马「不讲武德」,但山姆还是慌了
- AI+建筑设计,最具商业潜力的风口?
- 美丽中国丨西藏:壮美萨普雪山-->
- 《忠爱无言2》定档8月25日全国影院上映,金巧巧突破形象演绎...
- 茶百道赴港上市:营收不及蜜雪一半,净利率高于蜜雪
- 线上直播、跨城观看正流行,火爆的演唱会还有多少惊喜?
- 直播带货的暴富梦,该醒了!
- 亿元索赔落空,中创新航硬杠宁德时代
- ToB,智能可穿戴的下一个蓝海
- 广汽集团:8月16日融券卖出1.19万股,融资融券余额8.86亿元
- 北京部分儿童鞋被检出塑化剂超标
- 信心比黄金重要——降息和7月经济数据点评
- 50年来城市体量与能级变化,哪些城市逆袭,哪些城市滑落?
- 宏德股份:连续3日融资净偿还累计243.98万元(08-16)
- 中泰宏观:8月LPR或将非对称下调,存款利率也可能会进一步下调
- 新消费、新机遇:智能化的懒人经济
- 28000个!今天8:00!常州百万数字人民币红包开始报名!附入口!
- 宠物企业「凯尔资」完成数千万元A轮融资,源飞金鼎产业基金独...
- 「中国芯之父」再度冲击IPO
- 抖音美妆痛击淘宝
- 中国电网怎么网上缴费 中国电网如何缴费
- 刘强东打出两张牌
- 光伏价格战开始,低价成抢标杀手锏
- 熊猫qq车报价及图片(qq车报价及图片)
- 深圳万科物业“暖蜂行动”上线,花式关爱快递外卖小哥
- 什么是蔬菜汁?
- 中信银行汇率牌价表2023年,人民币对美元汇率是多少?
- 人民币对挪威克朗的汇率是多少?8月16日挪威克朗汇率实时查
- 人民币对南非兰特汇率是多少?8月16日南非兰特汇率查询
- 人民币对丹麦克朗汇率多少钱?8月16日丹麦克朗汇率查询
- 人民币对墨西哥比索汇率今日多少?8月16日墨西哥比索汇率查询