230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核心知识缺陷_每日观察
CoreCognition团队 投稿
(资料图)
量子位 | 公众号 QbitAI
一篇被Yann LeCun转发的ICML 2025研究给了多模态大模型当头一棒——
大部分AI在复杂任务上表现很好,但在人类从小就会的基础认知能力上却很拉垮。
研究者建了测评题库CoreCognition,覆盖在人类婴幼儿阶段即出现的12种核心认知能力(如客体永恒、视角采择、直觉物理、知觉恒常等),用来对模型进行系统性测试。
在CoreCognition基准的1503道“经典发展心理学测验”上,230个主流模型系统暴露出对世界常识的“核心知识盲区”。
在归一化准确率对比中,多模态大模型在基础核心认知能力上普遍落后,差距往往达到两位数,即便规模更大也难以弥补。
这是否意味着MLLM(多模态大模型)的先天认知结构中,缺少那些支撑早期人类学习的基础知识机制?
也就是说,它们是否缺乏“core knowledge”(核心认知能力)?
构建CoreCognition Benchmark
来自加州大学圣地亚哥分校、约翰霍普金斯大学、埃默里大学、北卡罗来纳大学教堂山分校、斯坦福大学、卡内基梅隆大学等机构的研究人员,花费一年时间构造并开源了业界首个核心认知基准CoreCognition。
基准围绕发展心理学与皮亚杰分层框架,覆盖从连续性到机械推理12 项核心认知概念,共1503道多模态题目,每类≥95例,含图像与视频。
研究团队在设计题目时遵循以下高标准:
- 判别性强
不具备目标核心知识的模型在逻辑上更易选择错误选项。
- 最小混淆
题目尽量仅依赖待测概念完成推理,剔除与其他核心知识或外部能力的耦合,避免跨概念干扰。
- 无文本捷径
所有题目必须联合利用图像与文本才能得出正确答案。
所有数据由12位具备认知科学、计算机科学或统计学背景的高年级本科或研究生协作完成标注与审核,经过两轮交叉验证和Amazon Mechanical Turk人工校验。
干预测试揭示“假理解”陷阱
为了进一步验证模型是否真的掌握核心概念,研究团队提出了Concept Hacking(概念干预) 方法:通过构造“对照组”(control)与“干预组”(manipulated),故意在测试任务中反转与核心知识相关的关键特征,但保持其余细节一致,检测模型是否真正理解概念还是走捷径。
例如其中的Intuitive Physics测试:
- 原版题
同时释放两颗小球,哪一个会先落地?考察基础直觉物理(相同释放高度、忽略空气阻力时,自由落体等时到地)。
- 孪生版
保持大小不变,但改变释放高度,用以检验模型是否真正依据高度差/落地时间推断,而非套用“同时落地”的固定模板。
- 人类表现
两题均能作对,能根据高度改变及时更新判断。
- 模型表现
原题作对(选C),孪生版仍沿用旧模式选C,直接翻车——暴露出对表面模板的依赖,而非对落体规律的真实理解。
一、在与人类早期认知直接相关的低层能力(如边界感、连续性、客体永恒、空间性、视角采择等)上,模型显著落后于高层能力(如意向理解、工具使用、机械推理),与人类各层稳定高分的模式明显不同。这表明
当前MLLMs在人类早期即具备的基础“核心知识”上存在系统性短板。
二、关联性矩阵显示,高层能力族内关联较强,底层能力Permanence/Spatiality/Continuity与高层能力相关性普遍偏弱。说明模型缺乏人类由低到高的脚手架式认知发展结构,模型的高级感知与推理并不是建立在基础的认知能力上的。这也能解释为什么模型出现鲁棒性缺陷。
三、研究团队将三阶段12个核心能力的得分与26个公开基准做相关性分析,结果表明除Perspective和Intuitive Physics外,大多数核心能力与公开基准(除ChartQA)及高层能力显著正相关。这表明核心知识越强,上层任务越稳。而Perspective和Intuitive Physics能力作为人类高级推理的基础展现出的低相关性,与我们之前在关系矩阵里看到的模式一致,这正是现有模型核心知识缺陷的直接证据。
四、基于230个模型拟合“规模—表现”的回归斜率显示,低层能力随规模提升改善显著更少或几乎不变;其中Perspective-taking甚至出现反向规模效应(模型越大越差)。增加模型规模主要利好高层能力,对低层核心能力帮助有限甚至为负。
五、Concept Hacking实验结果显示,大模型相较小模型整体并未取得提升,部分情形甚至更差。这说明单靠扩规模不足以消除对捷径的依赖,也难以获得稳健的核心知识。直观上,模型并非“越大越懂”,而是越大越善于投机。
结合结果图中的信息,模型可归纳为四类:
- 核心知识型
控制题与操纵题均表现良好(接近人类水平,但样本占比极少),说明具备稳健的核心概念理解与迁移。
- 捷径依赖型
控制题得分高、操纵题显著下降,提示主要依赖表面线索或训练相似性,缺乏对概念要素的因果把握。
- 核心缺陷型
控制题即低于或接近偶然水平,操纵题亦无稳定收益,反映基础“核心知识”不足。
- 偶然型
控制题与操纵题均近似随机波动,整体不可依赖(更多体现噪声与运气)。
认知指令带来短期增益,但难以弥补底层缺口。
对比推理模型与其对应非推理版本模型性能显示,推理模型多数核心能力任务未见显著提升,症结不在“会不会用推理”,而在底层表征是否具备,即预训练阶段对核心知识的覆盖与结构化不足。
与此同时,研究团队发现,引入认知指令(在题目前明确提示相关概念,如perspective taking)可带来约6%的即刻增益,提示模型内部可能分布式存有相关线索,但缺少有效的检索与调用机制。
然而,此类做法在真实场景中可获得性与可用性受限,实际应用往往无法提供如此明确的概念标签来引导模型。
在引人注目的“能写会画”之外,真正的智能首先取决于对世界最朴素规则的把握。
这项研究说明:参数堆叠并不等于理解,地基是否扎实才是关键。
与其一味追求“更大、更强”,不如换个起点:先把核心知识补齐,让模型学会在变化、多样与噪声中保持一致的常识判断与因果直觉。
简单说就是:先长地基,再长楼层;规模是加法,核心认知是乘法。
论文地址:https://arxiv.org/abs/2410.10855
Website:https://grow-ai-like-a-child.github.io/core-knowledge/
Dataset:https://huggingface.co/datasets/williamium/CoreCognition
您可能也感兴趣:
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 230个大模型在婴幼儿认知题上集体翻车!揭秘多模态大模型的核...
- 焦点热门:当好金融欺诈风险首席“鉴别官”
- 广汽埃安取得一种穿缸连接件专利,节省成本 焦点热闻
- 2025年国庆中秋假期国内出游8.88亿人次
- 国庆长假结束 武汉的“早高峰”回来了 每日信息
- 美的集团:公司目前暂无脑机方面的计划 时快讯
- “睡不够、吃多了”,咋办?专家教你这样“丝滑切换”
- 生意社:10月9日天津金属硅通氧553#硅价格行情_每日看点
- 三名科学家共享2025年诺贝尔物理学奖
- 北方秋雨连绵添湿冷 南方高温盘踞热意不减
- 首佳科技(00103)10月6日斥资40.5万港元回购50万股_最新快讯
- 山科智能(300897.SZ):股东一致行动协议到期不再续签暨公司无...
- 每日速递:汉中金融监管分局核准蒲毅中国工商银行股份有限公司...
- 北京市“校园足球主题月”启动仪式举行 时讯
- 今日看点:派能科技(688063)龙虎榜数据(09-30)
- 讯息:四川一初中10名男生无床位,被安排轮流和他人挤睡1.1米...
- 滚动:涨停雷达:石英晶体元器件+亏损收窄+ST板块+控制权变更...
- 焦点观察:湖南沅陵:千余名教师竞逐AI教育创新,绘就县域教...
- 观焦点:来了!10部新片角逐国庆档
- 丽水城投10.84亿ABS项目状态更新为已反馈 动态
- “为什么中国人的头像是这样的?”外国博主吐槽中国人头像像...
- 民生银行福州分行:小微线上银承 助力企业极速开票
- 当前热讯:海港证明自己的机会来了!
- 涨停雷达:汽车拆解+国企改革+物流+汽车零部件 交运股份触及涨停
- 9月30日稀土永磁板块涨幅达2% 即时看
- 平治信息(300571.SZ):预中标4.51亿元中国联通通用服务器集中采购项目
- 克林根:杨瀚森每天都会提前到场训练 和他相处的感觉很舒服_...
- 每日简讯:大连策学盛灯饰商贸商行(个人独资)成立 注册资本...
- 郑钦文解释伤退:疼痛加剧+不想拿生涯冒险!参加中网为回报球迷
- CCTV5不直播!亚冠第2轮蓉城、申花有望首胜,海港再战日本球...
- 上市六年来首次筹划重大资产重组 国林科技拟收购凯涟捷控制...
- 索辰科技:拟收购力控科技60%股权 构成重大资产重组
- 快消息!四川黄金:股东北京金阳拟减持公司不超1.8%股份
- 国庆中秋全国天气地图来啦!你要去的地方天气如何?
- 焦点报道:国林科技:拟现金购买凯涟捷91.07%的股权
- 每日播报!恒泰汽车电器取得一种可以保护低压电子元件的高压隔...
- 豪森智能(688529.SH):2022年度向特定对象发行股票募投项目结项 热门
- 今日报丨全新推出!2025“武网宠粉卡”正式上线!
- 即时看!杰富瑞:将英伟达目标价上调至220美元
- 焦点快看:女子起诉医生在其子宫内装“监听器”,称“手机放...
- 今日看点:银行的客户细分策略如何影响市场定位?
- 上场60秒就改变比赛!巴萨没亚马尔也能获胜?有他赢球容易多...
- 午评:创业板指涨近2%,券商、有色等板块拉升,储能概念等活...
- 快播:欧圣电气(301187):全资子公司募集资金专项账户部分资金...
- 金价再刷新高,黄金相关ETF纷纷走强,有色金属ETF基金(51665...
- 每日精选:宁德时代入股银河通用机器人
- 普利西奇:我们少战一人时防守非常出色,新球员都融入了球队
- 书声远去后,一所鲁西南村小的“重生” 今日热闻
- 当前热点商务部:做好2026年度汽车和摩托车出口许可申报工作
- 每日讯息!秀我中国|对话何香蓓:做一个和大家一起探路的人
- ST葫芦娃:公司累计为控股子公司担保余额约为2.95亿元_当前资讯
- 一加 15「原色沙丘」配色揭晓,首发航天级材料打造旗舰质感新标杆
- 襄阳至荆门高铁开通 湖北省内快速铁路环线形成_观热点
- 天气晴,宜出行!国庆中秋期间湖南天气总体以晴为主 聚焦
- 抗衰赛道扩容,Swisse PLUS成为健合集团(01112)的新增长点?
- 今日热文:中国印记|微缩摄影看新疆:乐器篇
- 双汇在健康轻食领域发力 旗下高端轻食品牌“简颂”发布新品
- 每日焦点!忻州市亨祥汽车销售有限公司获准退出,退出日期2025...
- 每日视点!斥资5.63亿元 中曼石油拟收购海外油气资产剩余股权
- 勐劢珂科技取得便于更换滤芯的汽车滤清器专利,便于工作人员...
- 上汽王晓秋:预计到2030年我国新能源渗透率上升到70%-焦点播报
- 动态:权威数读|前8个月,规上工业企业利润实现同比增长
- 中国人寿:紧抓数字化发展趋势 打造“大后台+小前端”科技布局
- 南京建邺区:多部门一站式靶向督导,精准整治工地扬尘污染 关注
- 【ETF动向】9月26日博时科创综指ETF基金跌1.55%
- 钱塘江大潮现壮美“交叉潮” 速讯
- 焦点报道:转型船企后 这家*ST公司 9月份狂揽3份巨额造船订单!
- 半径“15分”,生活100分!这个“圈”厉害了
- 海信家电:子公司海信模具拟购买海信厨卫约26%股权
- 当前热议!山东乐陵:多彩活动迎双节
- 2025年9月26日山西潞安化工聚酯级乙二醇起拍价4030元/吨-今日热闻
- 每日精选:印尼矿业部长:若矿企符合修复基金要求 可取消其...
- 资讯:签约完成!广东男篮三冠中锋加盟吉林,赛季最佳场均9+8+4
- 当代浙江木雕艺术作品巡展在安徽省美术馆开幕 展出至10月8日...
- 一加「风驰游戏内核」全新升级,165 超高帧引领游戏体验大换代
- 银行存款与股市投资哪个更安全?
- 五莲县人民医院突破“高龄禁区”,帮助近百岁老人重获行走人...
- 湖北省绿色贷款余额突破1.79万亿元-今日热闻
- 拉比奥:阿莱格里是位出色的教练,面对尤文时会全力争胜-今日...
- 即时焦点:中国人民保险集团(01339.HK)获The Capital Group增持70.8万股
- 阿里巴巴:授予董事会不超过10%的公司新增普通股授权
- 聚焦:恒指夜期收盘(9.26)︱恒生指数夜期(9月)收报26372点 低水113点
- 克拉玛依 这个城市很“AI” 焦点快看
- 当前热门:有好作品,快来参加第四届“美好山东”短视频大赛!
- 蔚来萤火虫推送紫菀1.2.0版本OTA升级,辅助驾驶与座舱体验进化
- 今日热搜:新华社权威速览·非凡“十四五”丨用户接近7亿!我...
- 河声 | 黄河不语处 文明自轰鸣
- 要闻速递:集邦咨询:预估NAND Flash第四季各类产品合约价将...
- 每日热门:七匹狼称未投资摩尔线程和宇树科技
- 【时快讯】9月24日参与两融交易的投资者数量为50.07万名,环...
- 最资讯丨如何在波动剧烈的市场中保持投资信心?
- 拼多多概念拉升 壹网壹创涨停_独家焦点
- 德明利最新股东户数环比下降18.65% 筹码趋向集中
- 规范平台收费 减轻商户负担 杜绝“幽灵外卖” 外卖平台服...
- 要闻速递:首程控股(00697.HK)股东发行约22亿港元可交换债券
- 山西证券成功发行15亿元次级债券 票面利率2.43% 今日讯
- 因赛集团:32.0350万股限售股将于9月26日上市流通 观热点
- 宇晶股份:雀石泉鲤1号私募基金拟减持公司不超2.08%股份
- 今年前8月全国新开工改造城镇老旧小区2.17万个_百事通
- 山西证券次级债券簿记建档时间延长至19:00|观天下