世界热门:大模型炼丹指南:信则灵,不信则妄
每一个大模型都是一台昂贵的“碎钞机”,这已经成为各路AI观察家们津津乐道的常识。
(资料图片仅供参考)
大模型训练成本有一个简单的比例:训练费用跟参数量的平方成正比。比如OpenAI训练1750亿参数的GPT-3费用大概是1200万美元,训练5000亿参数(业界预估)的GPT-4成本就飙升至1亿美元。
成本大都来自GPU使用时长。Meta训练650亿个参数的LLaMA模型耗费100万个GPU小时;HuggingFace(号称机器学习届的Github)训练Bloom模型耗费了超过两个半月的时间,使用的算力相当于一台装有500 个 GPU的超级计算机。
Google在训练5400亿参数的PaLM模型时,在6144 块 TPU v4 芯片上训练了 1200 小时,然后又在在 3072 块 TPU v4 芯片上训练了336小时,总共消耗了2.56e24 FLOPs的算力,折合成Google云计算的报价,大概在900~1700 万美元左右。
但是……几百上千万美金的训练费用和几亿美金的硬件投入,相比AIGC开启的浪潮,真的算贵吗?
微软2022年的净利润是727亿美金,Google是600亿美金,Meta则是230亿美金,在OpenAI花费460万美金训练GPT-3之前,这些巨头都投入了几十甚至上百亿美金用来寻找所谓的“新方向”。
微软迄今为止向OpenAI投入了100多亿美金,这个数字看起来很多,但要知道微软当年收购LinkedIn就花了262亿美金,而在更早的时候收购诺基亚手机业务花了71.7亿美金,基本等于打了水漂。
Meta则花了更多“冤枉钱”来寻找第二曲线。2021年扎克伯格把Facebook的名字改成了“Meta”,投入巨资All in元宇宙,2022年元宇宙部门亏损137亿美元。在ChatGPT问世之前,Meta甚至一度准备把2023年的20%预算投入到元宇宙中去。
Google对AI一向重视,不仅收购了“前GPT时代”的明星DeepMind,还是Transformer这一革命性模型的提出者,但Google并没有像OpenAI那样孤注一掷地“死磕”大语言模型,而是在多个方向上“撒胡椒面”——总投入并不少,但效果加起来都不如一个ChatGPT。
拉开视野来看,全球科技巨头——包括国内的大型互联网企业在移动互联网渗透率见顶之后,展开了惨烈的“存量博弈”,卷算法推荐、卷短视频、卷Web3、卷本地生活……投入的资金远远超过OpenAI在ChatGPT诞生前烧掉的10亿美金。
发现新大陆的费用,跟旧大陆的内耗向来不在一个数量级。欧洲人在哥伦布发现新大陆之前内卷了1000年,而发现新大陆只花了西班牙王室投资的200万马拉维迪(大约14000美元)——跟新大陆给世界带来的变化相比,这点儿钱其实微不足道。
事实上,“资金”从来都不是启动本轮AI浪潮的核心因素。真正核心的因素是另外两个字:信仰。
蛮力的神迹
ChatGPT走红后,好事儿的媒体跑去采访了Google旗下的DeepMind创始人Demis Hassabis。
被OpenAI抢去了所有风头的Hassabis言辞有点儿不客气:“面对自然语言这一挑战,ChatGPT的解决方案如此不优雅——仅仅是更多的计算能力和数据的蛮力,我的研究灵魂对此倍感失望。”
这句话听起来很“酸”,然而他接着话锋一转:“但这的确是获得*结果的方式,所以我们(的大模型)也以此为基础。”意思就是虽然不太认同,但OpenAI的“蛮力”真的很香,我们也不得不去学。
Hassabis身段灵活,但早期对“蛮力”这件事的态度,让Google和OpenAI有了致命的分野。
2017年,谷歌在论文中公开了革命性的Transformer模型,业界逐渐意识到这个模型对于构建AGI(通用人工智能)的意义。然而,基于同样的Transformer,谷歌与OpenAI却走上了两条不同的两条路。
OpenAI旗帜鲜明地从Transformer构建大语言模型,疯狂堆参数,2018年6月发布GPT-1,参数1.17亿;2019年2月发布GPT-2,参数15亿;2020年5月发布GPT-3,参数1750亿,在蛮力的道路上“一条路走到黑”。
而Google虽然也地祭出BERT(3亿参数)、T5(110亿参数)和Switch Transformer(1.6万亿参数),表面上跟OpenAI斗的有来有回,但光从模型的名字就能看出来:Google总在更换模型搭建的策略,而OpenAI的策略更单一更专注。
比如GPT-2和GPT-1相比,OpenAI没有重新设计底层结构,而是将Transformer堆叠的层数从12层增加到48层,并使用了更大的训练数据集,而GPT-3进一步把层数增加到了96层,使用比GPT-2还要大的数据集,但模型框架基本上没有改变。
另外,基于Transformer的大模型演化有三个分支:Encoder Only,Encode-Decoder,Decoder Only。OpenAI一直坚持只用Decoder Only方案,而Google则变来变去:BERT模型使用Encoder Only,T5模型又改成了Encode-Decoder。
等到OpenAI突破后,Google匆忙转向Decoder Only方案(PaLM模型),时间已经错失了至少一年半。
在跟OpenAI的军备竞赛中,Google却总沉浸在一些貌似炫酷,但实则对AI缺乏信心的产品上——比如2022年发布的Gato。Gato的思路是先做一个大模型底座,然后再灌不同的数据,以此生成出大量小模型——每个小模型都有特定的能力。
这么做的目的是让单个AI具备尽可能多的功能,更加通用。做一个简单的类比:谷歌路线相当于让一个上完九年义务教育的12岁小孩儿,去参加钢琴、写作、编程、舞蹈等一系列专业技能培训班,靠着“1+1+1...”培养出一个多才多艺的“全才”。
Gato能执行604种不同的任务,包括给图片配文、玩雅达利游戏、操作机械臂搭积木。不过,Gato虽做到了“通才”,但实用性却相当堪忧:其中近一半功能,还不如便宜小巧的“专才AI”好使,有媒体评价:一个平庸的人工智能。
“*”但又不那么*的Gato
相比之下,OpenA更热衷于让AI“做好一件事”,即像人类一样理解自然语言——这是通向AGI的必经之路。
在所有站在Transformer模型肩膀上的团队中,OpenAI是把“蛮力”发挥到最淋漓尽致的一个,算力不够就买算力,数据不够就找数据,别人的牛逼技术我直接拿来用,反正就是要把规模堆上去。终于,在“暴力美学”的指引下,奇迹出现了。
从成立*天起,OpenAI就把创造接近甚至超越人类的AGI(通用人工智能)作为几乎*的目标。而且相比Google的迟疑不定,OpenAI发起人们(包括马斯克)是真的相信AI可以成为一个18岁的成年人,而不是永远停留在12岁上打转。
黄仁勋在今年3月对谈OpenAI联合创始人Ilya Sutskever时,问了一个问题:“在这个(GPT研发的)过程中,你一直相信,扩大规模会改善这些模型的性能吗?” Ilya回答道:“这是一个直觉。我有一个很强烈的信念,更大意味着更好。”
这是一场蛮力的胜利,但更是一种信仰的胜利。大模型回报给“信仰”的礼物,也远超想象——随着参数量的暴力提升,研究人员突然有一天发现大模型出现了令人惊喜,但又难以解释的能力飙升。
他们找了一个老词来形容这种现象:Emergence(涌现)。
虔诚的回报
Emergence(涌现)这个词,常见于哲学、系统学、生物学等领域,其经典的定义是:当一个实体被观察到具有各个部分单独存在时不具备的属性和能力时,这种现象就被称之为“涌现”,早在古希腊时代,这种现象就被亚里士多德研究过。
后来,英国哲学家George Lewes在1875年*次发明了Emergence这个词,用来专门形容上述现象。1972年,诺贝尔物理学奖得主Philip Anderson撰写了一篇名叫“More is Different”的文章,用一句经典的金句来给“涌现”做了解释:
当一个系统的量变导致质变时,就称之为“涌现”。
“涌现”被引入到大模型中,可以说是相当贴切:AI工程师们观察到一个现象,随着模型的参数量越来越大,当超过某个阈值或者“临界点”的时候——比如参数量达到100亿,模型会出现一些让开发者完全意想不到的复杂能力——比如类似人类的思维和推理能力。
比如,Google大模型测试基准BIG-Bench里有一项任务:给出4个emoj表情符号,让模型回答代表什么电影。简单和中等复杂度的模型都回答错了,只有参数超过100亿的大模型会告诉测试者[4]:这是电影Finding Nemo(海底总动员)。
2022年,来自Google、DeepMind、斯坦福和北卡莱罗纳大学的学者分析了GPT-3、PaLM、LaMDA等多个大模型[3],发现随着训练时间(FLOPs)、参数量和训练数据规模的增加,模型的某些能力会“突然”出现拐点,性能肉眼可见地骤然提升。
这些“涌现”能力超过了137多种[5],包括多步算术、词义消歧、逻辑推导、概念组合、上下文理解等。这项研究给大模型的“涌现”下了一个定义:如果一项能力只有在大模型中存在,在小模型中观测不到,这项能力就是“涌现”出来的。
微博博主tombkeeper做过这样一个测试:在ChatGPT刚诞生时,他将发表于2018年的一篇充满隐喻的微博——“对微博上的佩奇来说,今天是黑暗的一天——她们的摩西杀死了她们的加百列”,交给ChatGPT理解,但ChatGPT回答失败了。
来源:微博tombkeeper
而等到2023年3月OpenAI推出了GPT-4,tombkeeper再次将这个问题扔给AI,回答基本接近满分。
来源:微博tombkeeper
Google在训练大模型PaLM时,也发现随着参数规模的增加,模型会不断“涌现”出新的能力。
当最终把PaLM的参数堆到5400亿时,模型就具备了区分因果关系、理解上下文概念、解释冷笑话等能力。比如像前文一样根据4个emoj表情符号来猜电影名字。
对于大模型“涌现”的背后逻辑,现在几乎没有科学家能彻底讲清楚。这让人想起了1950年阿兰·图灵在《计算机器与智能》这篇论文中论述过一个观点:“学习机器有一个重要的特征,即它的老师往往对机器内部运行情况一无所知。”
当然,有人对此欣喜若狂,有人则会觉得毛骨悚然。不过无论是哪一派,都不得不承认那句老话:大力真的能出奇迹。“大力”背后就是信仰——人类一定可以用硅基来模仿大脑结构,最终实现超越人类的智能。而“涌现”告诉我们:这一刻越来越近了。
信仰的充值
有信仰,就要对信仰充值。中世纪基督徒用的是赎罪券,新世纪AI信徒用的则是晶体管。
文心一言面世之后,李彦宏的一段采访曾冲上热搜——李厂长直言“中国基本不会再诞生一家OpenAI”,这似乎有点儿不太给王慧文面子[9]。但这一观点确实有理有据:大模型军备竞赛,大概率会比曾经烧掉数十亿美金的网约车战争还要惨烈。
如果按照业界预估的成本,GPT-4训练成本大约在1亿美金左右,GPT-3的训练费用也要1200万美元。先不说昂贵的人才团队费用,王慧文的5000万美元光是投入到GPU购买或租赁上,都显得捉襟见肘。
大模型发展的三要素:算法、算力、数据。其中算力是数字时代的“石油”,未来的缺口一定会越来越大。自2012年开启黄金时代后,AI对算力的需求开始呈现指数级增长。从2012年的AlexNet,到2017年的AlphaGo Zero,算力消耗足足翻了30万倍。
训练大模型需要专门的GPU集群,传统数据中心的用场不大。微软为了“迎娶”OpenAI,曾特地配备了一台拥有数万块A100与H100 GPU的超级计算机,光硬件入场费就花了近10亿美金[1]。
即便如此,据相关机构测算,由于ChatGPT与GPT-4的访问量仍在增长,10亿美金的超级计算机马上又要不够用了。要么进一步扩大算力,要么只能尽力控制成本,继续采用限流等手段[12]。
对此,贴心的卖铲人英伟达推出了AI超算云服务:租赁8块旗舰版A100,每月只需37000美元,童叟无欺。若要达到训练GPT-4的算力(一万块A100)月租金需4600万美元左右——每月净利润不足一个小目标的企业,的确可以洗洗睡了。
跟用神经网络来模仿大脑一样,AI算力的昂贵也跟人脑的属性保持一致。
一个人的大脑大约有860亿个神经元,每个神经元平均跟其它7000个神经元相连接,所以大约有6000万亿个连接。尽管大脑的重量只占人体的2%左右,但当无数神经元连接工作的时候,它们每天需要消耗人体总能量的20%~30%。
因此,即使是碳基生物的“智能”,也是一种暴力堆砌神经元后的“涌现”,对能量的消耗巨大。而相比经过上亿年进化的碳基神经元,晶体管构建的神经网络离“低功耗”相距甚远——比如柯洁功率是20w,而跟他下棋的AlphaGo功耗是他的5万倍。
因此,人类要想做出真正的AGI,还需要继续给信仰来充值。
对全人类来说,这种充值显然是无比划算的。仔细算一算,OpenAI烧掉的10亿美金,不仅给全球的科技公司找到了一片“新大陆”,还给愈发内卷的全球经济点亮了增量逻辑。在美元泛滥的当下,还有比这10亿美元性价比更高的项目吗?
当“新大陆”被发现后,全世界都会蜂拥而至。比尔·盖茨虽然现在是AI的狂热鼓吹者,但早在微软*次投资OpenAI时,他是强烈的怀疑者,直到去年年底看到GPT-4的内部演示才对外表示:It’s a shock,this thing is amazing。
比尔·盖茨在未来可能拥有人工智能领域最雄伟大厦的冠名权,但OpenAI的创始人们、以及更多连接主义学派的人工智能先驱,值得人们在广场上树立雕像。大模型的炼丹之路,信则灵,不信则妄,跟风的投机主义者不配留下姓名。
最后,人类通往地狱或者天堂的道路,一定是由AI虔诚的信徒用一颗颗晶体管铺就的。
参考资料
[1] ChatGPT and generative AI are booming, but the costs can be extraordinary, CNBC
[2]Microsoft spent hundreds of millions of dollars on a ChatGPT supercomputer,The Verge
[3]Emergent Abilities of Large Language Models, Jason Wei等,TMLR
[4]The Unpredictable Abilities Emerging From Large AI Models
[5]137 emergent abilities of large language models, Jason Wei
[6]Harnessing the Power of LLMs in Practice
[7]Alphabet’s Google and DeepMind Pause Grudges, Join Forces to Chase OpenAI,The Information
标签:
您可能也感兴趣:
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 【新要闻】「新原神」爆火,又要捧红多少博主?
- 投资界24h|上海招商拼了:设立1000亿产业基金;字节下小荷健...
- 即时焦点:国内油价调价窗口今日开启,有望假期前下调
- 天天时讯:特报清言|形式“走新” 效果“走心”
- 李亚鹏遭强制执行,被指欠债4000万未还_全球快报
- 专注医健产业园生态运营,XBP和煦园获中喜基金战略投资_环球热闻
- 荣耀Magic5系列站稳高端市场,Q1欧洲出货量同比增长超400% 当前简讯
- 世界热门:大模型炼丹指南:信则灵,不信则妄
- 黄河源头这些地方禁止开展旅游活动
- Midjourney:伟大的公司只需要十一人
- 爆宠狂妻神医五小漫画在线观看_爆宠狂妻神医五小漫画
- 内蒙古和林格尔新区:打造绿色算力中心 构建数字经济发展新体系
- 乐见数字人民币再“尝鲜”
- 热点评!“五一”假期,三场消费促进活动等你来
- 【天天新视野】上海:打造国际金融中心“升级版”,建设全球...
- 安徽首季经济“答卷”,怎么读?
- 欠薪欠租,超1500家倒闭:靠颜值出圈的网红书店,为何一地鸡毛?
- 500块的老年大学,20岁的我抢着上
- 排队6小时买日本吐司,上海中产怎么把网红面包吃成土特产的?...
- 环球快报:推进农业数字化转型 北大荒集团《数字农场建设指南...
- 30多元一杯的酸奶,我快喝不起了
- 梦饷科技宣布开放开源,打造“5+X”全球全域流量场|天天即时
- 世界实时:金刚台镇三举措提升群众安全感和满意度
- 中央选定南充为南遂广区域中心城市,真实的南充有多硬核为何...
- 兴业证券:新旧动能切换之下企业利润分化——3月工业企业利润...
- 大丰区供电公司完成首笔数字人民币报销业务
- 一季度我国民营企业活力显现 新设民营企业203.9万户
- 世界热点评!总投资581亿元!福建省数字经济重点项目集中签约
- 富国基金张圣贤:创新药审批严 估值波动较大
- “艇”力前行! 光明科学城赛艇挑战赛点燃鹏城激情
- 全球速读:助推澄海玩具产业转型升级,这个产业城锚定“全产...
- 圆桌|央行数字货币可以成为将来数字时代经济的货币基础-天天...
- 环球今热点:28地春季报:春暖花开还是乍暖还寒
- 环球头条:贵州一季度GDP同比增长2.5%,进出口总额同比增长58%
- 每日聚焦:退休后独生子女费发放标准是怎样
- 数说中国·首季经济形势 | 流动中国释放生机与活力——透视...
- 15167.4亿!一季度重磅数据出炉!国家统计局解读
- 长川科技(300604)2023年一季报简析:净利润减180.5%,三费...
- 环球资讯:乐见数字人民币再“尝鲜”
- 热头条丨乐见数字人民币再“尝鲜”
- 各省GDP排名,前5强确定了,后5强变化太激烈?_环球新资讯
- 低通胀等于通货紧缩吗? 全球快播
- 经济大省再挑大梁 地方拼经济各显其能_全球关注
- 勤下基层促“三情” 助力企业谋发展|天天简讯
- 焦点热讯:四川首季外商直接投资实现两位数增长
- 全球热资讯!【每周经济观察】更加重视消费增长可持续性
- 安徽自贸试验区一季度开局发展强劲_天天新资讯
- 播报:湖北荆州促工业经济提档升级
- 全球热讯:3月份工业企业营收由降转增 装备制造业利润明显改善
- 今头条!1035人获全国五一劳动奖章
- 中集产城:推动数字化转型升级,第五代产业空间有望落地
- 广交会二期出口成交逾45亿美元,“绿色低碳”元素成为吸睛看点
- 中国道教网站 中华道教网-当前速讯
- 《秋叶脱物语2:导演剪辑版》评测:二零一三年,前往秋叶原
- 西方世界的劫难3古堡开门密码门_遗忘之地开门密码
- 2023年一季度贵州省GDP出炉
- 每日快看:我国数字经济规模稳居世界第二;商务部将培育汽车...
- 一季度居民可支配收入榜出炉,你的钱袋子变鼓了吗?
- 科学教育如何在开放与实践中创新?深派教育高质量发展展示交...
- 每日视讯:深企光峰科技:再次收到比亚迪开发定点通知 将供...
- 【环球速看料】聂雪松主持召开分析研究营利性和非营利性服务...
- 江西首次发现完整保存的大型植食性恐龙化石
- 人行营业管理部:将持续扩大数字人民币应用覆盖面
- 前3月工企利润下降21.4%,较上月降幅收窄,3月单月营收由降转...
- 美国要求韩芯片制造商禁止填补美在中国市场份额?商务部回应
- 【全球热闻】市场销售持续回升!深圳一季度社会消费品零售总...
- 西藏旅游:筹划购买新绎游船不低于51%股权事项
- 百事通!深圳一季度固定资产投资增15%,投资万亿目标更近一步...
- 全球焦点!+6.5%!深圳一季度经济“成绩单”公布!
- 全球快看:数读深圳2023年一季度经济数据丨圳式开年“拼经济”
- 世界聚焦:第14届国际基建论坛6月澳门举办,主题聚焦绿色引领...
- 国企进驻 耀世绽现 天宸THE CORNICHE战略合作发布暨媒体品...
- 投资大咖共话中小企业高质量发展 前海召开“专精特新”企业...
- 五一假期足不出穗,乐享打卡好“趣”处!
- 世界报道:深圳统计局解读一季度经济增速6.5%:开局良好,但也...
- 天天热文:一季度规上汽车制造业增75.8%,深圳新能源汽车公司...
- 孙子兵法与三十六计智谋鉴赏
- 深圳一季度贷款8.9万亿增逾10%,投向制造业、普惠小微、外贸...
- 今日讯!交易额突破6亿元,数字人民币云南试点工作成效初显
- 全球热推荐:解码惠州经济一季报: 工业投资增长达33.9%,新...
- 世界热讯:如祺出行获智能网联汽车示范运营资格
- 当前快报:美团开启无人机送餐:外卖从天而降 15分钟内送达
- 世界要闻:TCL三大产业逾百种前沿科技产品吸睛 中国家电及...
- 焦点资讯:财政部:1—3月国有企业营业总收入同比增长6.4%
- 百姓看联播|GDP同比增长5.1%!河北首季经济企稳回升
- 警惕!国内就业愈发严峻,为何还要把中低端产业链转移至国外...
- 福州市数字经济重大项目集中签约
- 每日消息!数读|一季度哪些省份能挣会花?这个地方收入涨得最快
- 大模型竞速赛,已经开始拼场景、抢客户了
- 天涯社区的衰落只是必然 环球聚看点
- 许昌市魏都区:踔厉奋发 笃行不怠创“五星”
- 全球今热点:用科技连接善意,快手2022年ESG报告正式发布
- 重点聚焦!【数字中国建设有“福气”】数字化搭建新场景 福建...
- 【环球聚看点】今年就业形势稳中有升 前3个月城镇新增就业297万人
- 近5年来境外来琼直接投资净流入106亿美元 年均增长66%
- 深圳一季度经济数据出炉!GDP达7772.19亿元,同比增长6.5%
- 每日观察!蓝标亏钱、Meta裁员:天下秀还值得砸钱元宇宙吗?
- 【数字中国建设有“福气”】数字化搭建新场景 福建如何用浑...
- 今日看点:顺丰控股:深耕“新需求”,一季度营收610亿元,净...
- 当前动态:突然消失的游戏公司,200人规模一夜解散