OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无法描述_每日热点
就算在新产品满天飞,商业文明正在被 AI 重建的当下,我们仍然不知道,这些令人惊叹的技术是如何运作的。
AI,语言模型,它是个黑箱(black box),人类无法理解,我们甚至不知道怎样研究才能够理解。
(资料图)
但如果,研究这个黑箱的不是人类,而是 AI 自己呢?
这是一个令人好奇但又非常危险的想法。因为你甚至不知道,这一研究方法产生的结果,是否会彻底颠覆多年来人类对人脑和 AI 的理解。
但是有人这样做了。几小时前,OpenAI 发布了最新的研究成果,他们用 GPT-4 解释 GPT-2 的行为,获得了初步的成果。
毫不夸张地说,人们震惊极了:「求求你们让它离觉醒远点吧!」
「AI 理解 AI,然后很快,AI 训练 AI,然后再过几年,AI 创造新的 AI。」
但客观来说,学术界为之感到兴奋:「疯了,OpenAI 刚刚搞定了可解释性问题。」
人与机器之间是 GPT-4
OpenAI 刚刚在官网发布博客文章《语言模型可以解释语言模型中的神经元》(Language models can explain neurons in language models)。
简单来说,他们开发了一个工具,调用 GPT-4 来计算出其他架构更简单的语言模型上神经元的行为,这次针对的是 GPT-2,发布于 4 年前的开源大模型。
大模型(LLM)和人脑一样,由「神经元」(neurons)组成,这些神经元会观察文本中的特定规律,进而影响到模型本身生产的文本。
举例来说,如果有一个针对「漫威超级英雄」的神经元,当用户向模型提问「哪个超级英雄的能力最强」时,这个神经元就会提高模型在回答中说出漫威英雄的概率。
OpenAI 开发的工具利用这种规则制定了一套评估流程。
开始之前,先让 GPT-2 运行文本序列,等待某个特定神经元被频繁「激活」的情况。
然后有三个评估步骤:
*步,让 GPT-4 针对这段文本,生成解释。比如在下面的案例中,神经元主要针对漫威内容。GPT-4 接收到文本和激活情况后,判断这与电影、角色和娱乐有关。
第二步,用 GPT-4 模拟这个 GPT-2 的神经元接下来会做什么。下图就是 GPT-4 生成的模拟内容。
最后一步,对比评估打分。对比 4 代模拟神经元和 2 代真实神经元的结果,看 GPT-4 猜的有多准。
通过这样的方法,OpenAI 对每个神经元的行为作出了初步的自然语言解释,并对这种解释和实际行为的匹配程度进行了评分。
最终他们对 GPT-2 中 307200 个神经元全部进行了解释,这些解释汇编成数据集,与工具代码一起在 GitHub 上发布。
超越语言的机器
人类无法理解的机器
据 OpenAI 在博客文章中表示,目前 GPT-4 生成的解释还不*,尤其要解释比 GPT-2 更大的模型时,表现效果很差,「可能是因为后面的 layer 更难解释」。
对于 GPT-2 解释的评分大多也非常低,仅有 1000 个左右的解释获得了较高的评分(0.8 以上)。
OpenAI 可拓展对齐团队的 Jeff Wu 表示,「大多数解释的得分很低,或者无法解释实际神经元那么多的行为。比如,许多神经元以一种难以判断的方式保持活跃,它们在五六件事上保持激活,但却没有可以辨别的模式。有时候存在明显的模式,但 GPT-4 有无法找到它。」
虽然现阶段成绩不好,但是 OpenAI 却比较有信心,他们认为可以使用机器学习的方式提高 GPT-4 产出解释的能力。
比如通过反复产出解释,并根据激活情况修改解释;或者使用更大的模型作出解释;以及调整解释模型的结构等等。
OpenAI 还提到,这一方法目前还有很多局限性。
使用简短的自然语言进行解释,也许并不匹配神经元可能非常复杂的行为,不能简洁地进行描述。神经元可能会具备多个不同概念,也可能,会具备一个人类没有语言描述甚至无法理解的概念。
最终 OpenAI 希望能够自动化找到并解释能够实现复杂行为的整个神经回路,而目前的方法只解释了神经元的行为,并没有涉及下游影响。
解释了神经元的行为,但没有解释产生这种行为的机制。这意味着即使是拿了高分的解释,也只能描述相关性。
整个过程是计算密集型的。
在论文中,OpenAI 表示:「语言模型可能代表了人类无法用语言表达的陌生概念。这可能是因为语言模型关心不同的事情,比如统计结构对下一个token预测任务有用,或者因为模型已经发现了人类尚未发现的自然的抽象,例如在不同领域的类似概念家族。」
它把 LLM 的这种属性,称为 Alien Feature,在生物领域翻译为「异类特征」。
Founder Park 微信后台回复「解释神经元论文」,获取论文链接和中英对照 PDF 链接(机翻)。
把对齐问题也交给 AI
「我们正试图开发预测『AI 系统会出现什么问题』的方法,」OpenAI 可解释性团队负责人 William Saunders 对媒体说,「我们希望能够真正做到,让这些模型的行为和生产的回答是可以被信任的。」
Sam Altman 也转发博客文章称:GPT-4 对 GPT-2 做了一些可解释性工作。
可解释性(interpretability)是机器学习的研究子领域,指的是对模型的行为有清晰的理解和对模型结果的理解能力。
简单来说,目的就是解释机器学习模型「如何做到」(how)。
2019 年开始,可解释性成为机器学习的重要领域,相关研究有助于开发人员对模型进行优化和调整。针对当下 AI 模型大规模应用时,亟需解决的可信度(trust)、安全性(safety)和决策参考(decision making)等问题。
如果我们不知道 AI 是如何作出决策的,始终把它当做一个黑箱,那么就算 AI 在各种场景下表现得再*,也无法解决部分人类的信任问题。
OpenAI 这次使用 GPT-4 来解决可解释性的问题,就是希望能够使用自动化的方式,让机器完成 AI 研究。
「这是我们对齐研究的第三支柱的一部分:我们希望自动化对齐研究。令人期待的是,这一方向能让它(对齐)与 AI 发展的步伐相匹配。」
在 2022 年夏天,OpenAI 曾发布文章《我们做对齐研究的方法》(Our approach to alignment research)。
文中提到,宏观来看,OpenAI 的对齐研究将由三大支柱支撑:
1、利用人工反馈训练 AI
2、训练 AI 系统协助人类评估
3、训练 AI 系统进行对齐研究
「语言模型非常适合自动化对齐研究,因为它们通过阅读互联网『预装』了大量有关人类价值观的知识和信息。开箱即用,它们不是独立代理,因此不会在世界上追求自己的目标。」
太快了
连认知都范式革命了
虽然 OpenAI 本意很好,但是这样的研究成果着实吓坏了网友。
OpenAI 的推文下梗图横飞,有不少人在认真地建议 OpenAI 搞慢点。
「用我们不理解的东西,解释另一个我们不理解的东西,这合理吗?」
「护栏都被你撤了」
「这太迷人了,但也让我感到极度不适。」
「自然创造了人类来理解自然。我们创造了 GPT-4 来理解自己。」
「我们要怎么判断解释者是好的?这就像... 谁监督着监督者?」(who watches the watchers)
还有人看到了更深的一层:
「大模型很快就能比人类更好地解释他们自己的思维过程,我想知道我们未来要创造多少新的词汇,来描述那些 AI 发现的概念(概念本身也不准确)?我们还没有一个合适的词描述它们。或者,我们是否会觉得这些概念有意义?它们又能教会我们如何认识自己呢?」
另一网友回应道:「人类本身对自己行为的解释,大多是谎言、捏造、幻觉、错误的记忆、事后推理,就像 AI 一样。」
标签:
您可能也感兴趣:
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 教育“圳”行时 | 教坛有“新人”:做深圳教师何以备受追捧
- OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解,语言无...
- 2022年平均工资出炉!这个行业最高_天天最资讯
- 劳模杨幂,离「嘉」出走_当前资讯
- 教育“圳”行时 | 深圳集团化办学跑出高质量“加速度” 今...
- 商家“反向抹零”4分钱 被罚款2600元
- 精选!领英中国:一场无人意外的退出
- 1000亿美金,OpenAI将成硅谷史上融资最多公司-关注
- 投资界24h | 领英突然宣布关闭,裁员700人;又一家新能源车...
- 新概念英语第三册学习内容 (30)|每日观察
- 去年城镇单位就业人员工资水平保持增长
- 深圳人口,负增长了!
- 财政部公布重磅数据!养老金涨幅定了?3100元以下,可以多涨吗?
- 世界讯息:坏消息来了!有人预测5月后,社会或将发生这5大变...
- 去年中国城镇单位人均工资保持增长 信息软件等服务业最高薪
- 花生炖猪手
- 天天通讯!平安2022年度理赔报告:赔付总件数超2亿件,总金额...
- 江苏出台教育领域数字人民币试点实施方案
- 民生热线丨“五一”门票翻一倍? 景区回应来了 全球快播报
- 【世界速看料】846.15亿,大连园区经济“开门红”!
- 2022年平均工资出炉,最高的是TA! 世界热点评
- 世界快看点丨2022年平均工资出炉!
- 【奋发有为 推动高质量发展】太原市:产融对接 深化气候投...
- 全球快资讯:2022年全国城镇单位就业人员平均工资出炉:19个...
- 微信视频怎样让对方听到音乐(微信视频怎样让对方听到音乐和...
- 中央财政持续发力农村综合性改革|环球热讯
- 【新视野】政策持续发力 二季度经济增速料加快
- 2022年城镇单位就业人员工资水平保持增长
- 环球报道:稳就业须臾不可放松
- 发展夜经济得下大功夫|世界新视野
- “80后”女子6年7次偷渡缅北从事按摩工作被警方劝返回国,已...
- 投资中国成“必选”缘于外资信心满满
- 近43年来首次!深圳去年常住人口减少1.98万,什么原因?专家...
- 去年城镇单位就业人员工资水平保持增长
- 环球热点!女子称生四胞胎后又怀四胞胎:考虑到母体健康,已...
- 环球信息:千亿产业+配套刷新,丝路软件城怎样坐实“主角”地位?
- 一季度北海市居民人均可支配收入8772元
- 太阳风暴强烈爆发对地球产生的直接影响是_太阳风暴对地球影响...
- blackmores ve面霜大罐_blackmores ve面霜-环球资讯
- 今日精选:库里是历史最佳控卫吗?库克:是的 若他拿第5冠就...
- 环球速递!横琴一季度“回暖”:固投连续6个月降幅收窄,社零...
- 今日看点:百元不到享百万保障,“深圳惠民保”全新上线
- 百度副总裁侯震宇:AI技术突破口在于前沿理论研究,探寻突破T...
- 最新快讯!深圳去年常住人口减少1.98万,此前10年间增加了700多万
- 深圳去年常住人口减少1.98万 此前10年间增加了700多万
- 动态:万亿之城增速第一,西安的底气和预期
- 对标争先,顺德离昆山有多远?丨老马微观察
- 深℃丨嗟!来食! 天天消息
- 聚焦:教育部:充分开发利用科研助理岗位
- 和平精英怎么改性别(和平精英怎么改性别为男角色为女)
- 时讯:我国服务进出口总额一季度同比增长8.7%
- 社论:中小企业发展指数二连降提示扶持措施仍需加力
- 城市拼经济丨北方第三城青岛:一季度工业提速,振兴实体经济...
- 环球观点:拨云鉴粤|一季度珠三角经济竞速:珠海佛山工业投...
- 世界速讯:2022年平均工资出炉:IT业最高,金融业第二,房地...
- Guggenheim:上调赛富时评级至“中性” 对其销售目标持谨慎态度
- 新动态:商务部:一季度我国服务贸易继续保持增长态势
- 换个地方买房,就用不了公积金?|每日快看
- 中国东航:美国存托股计划于美东时间5月8日终止,可换H股
- 重要民生物资CPI冲破7% 民进党当局遏通胀不力引民怨
- “五一”消费“热数据”的背后,究竟释放了怎样的信号?
- 观热点:重磅经济数据陆续发布,超预期复苏能否延续
- 观点:全国平均工资人均超9500元,终于拖后腿的原因搞清楚了
- 官湖社区网格队长潘伟华:急民之所急,将政策送到有需要的人身边
- 重要民生物资CPI冲破7% 民进党当局遏通胀不力引民怨_每日速读
- 世界热点!龙岗教科院签约靖西、德保,共筑“1+2”县级教师发...
- 环球头条:4月信贷料将环比走弱,经济复苏仍需政策持续呵护
- 人口红利赢麻了?拿低工资的中国工人,养出了不思进取的企业...
- 当前消息!乘联会:4月新能源乘用车零售52.7万辆,环比下降3.6%
- 焦点信息:都2023年了,为什么还在看空苏州
- 有我在军歌歌词完整_有我在军歌歌词-全球观点
- 阳澄南岸崛起数字经济新标杆|精彩看点
- 今日开通!长沙首条云巴线全程无人驾驶,串联10余个景点
- 2022年全国规上企业就业人员年平均工资92492元
- 新北区:一季度居民人均可支配收入19163元-环球看点
- 2022年下半年四川内江市财政局下属事业单位公开考聘工作人员...
- 2022年全国城镇非私营单位就业人员年平均工资114029元-每日时讯
- 乘联会:4月新能源车市场零售52.7万辆,同比增长85.6%
- “数”说车市丨4月乘用车零售163万辆 同比增长55.5% 微速讯
- 每日速读!AI时代唯 一与你有关的可能是「商业容器」
- 图解 | 我国前4个月进出口增长5.8%
- 游走在「走鬼」和「流动小贩」之间的他们,有望在深圳「转正...
- 当前观察:腾讯「抢走」钉钉的课堂
- 【环球报资讯】深圳高校首家 “四史”学习新基地落户哈工大...
- 芙索特“牵手”华润守护“国之脊梁”,今年将为1000万青少年...
- 「极壳」再获百万美元Pre-A轮融资,瞄准户外场景外骨骼装备
- 1个月连开五大跨境仓 菜鸟国际快递再提速_当前速看
- 库里:末节我们只得17分 我必须看录像看湖人防守做了哪些调整
- 2022年平均工资出炉!中部地区垫底,房地产成唯一负增长行业...
- 全球快播:汽车报道:日产旗下互联汽车今年即将接受公共道路测试
- 看点:五一旅游爆火,是否意味经济全面复苏?不是企业裁员最...
- 当前简讯:淄博这项增长,高于全省全国
- 今亮点!南京建邺:“高新”争先,来一场政府企业的“双向奔赴”
- 重点聚焦!深圳“重疾险”升级为“深圳惠民保”!在支付宝正式...
- 国家统计局:2022年城镇单位就业人员工资水平保持增长
- 观察:A股市场午后跳水:沪指跌1.1%,3400点再度得而复失
- 深圳社会组织力量多维度提振市场消费信心
- 安丘能治白癜风的医院?-儿童节段型白癜风是什么?_全球热推荐
- 产业数字化是未来数字经济发展的主要机遇 每日报道
- 【环球速看料】私拆承重墙,谁的不能承受之重?