从狂热到理性:大模型训练三堵墙,一场少数人的游戏 全球新视野
“只要有GPU卡,把服务器买走都行”。3月份开始,张阳明显感受大模型带来的冲击,作为一家云厂商算力平台负责人,他意识到市场甚至有些盲目。“当时客户比较慌,相当于对产品都没有什么要求,不关心网络和存储,就是感觉大家都在抢机器,先抢过来固定住时间,然后再去看怎么用,那会大家还没有想明白怎么用。”
(相关资料图)
到了4月,有些客户已经尝试过或者见过大模型训练,逐渐开始想明白,大概知道想要什么样的配置。要一堆GPU卡,实际上是一个认知误区,大模型训练的实现依靠的是一个算力集群,包含整套的服务。
但不是所有企业都能驾驭大规模算力集群,这注定是一场少数人的游戏。事实上,微软和OpenAI的合作也已经证明,用云来训练大模型,似乎是更合理的选择。
作为中间层,云厂商向下屏蔽底层软硬件的复杂性,向上对接企业的研发和算法工程师、个人开发者等,此外背靠集团的云厂商,还具备资金、人才、数据等优势,也就*开始声势浩大的进军大模型。
AI算力芯片、服务器/交换机、光模块/光芯片、数据中心、云计算……算力产业链条的每个角色,仿佛齿轮般咬合在一起,构成数字经济的产业发动机,如今,大模型让每个齿轮都极速传动起来。
训练基础模型,是一切大模型产业生态的起点,也只有闯过算力关,才能拿到大模型竞赛的入场券。
1、大模型训练的三堵墙
技术的发展有其延续性,正如微软Azure为OpenAI打造的“超级计算机”,经历了数年的演进才有成果,现阶段大模型训练比拼的,其实是过去几年厂商的战略预判与技术积累,能上牌桌的大多是老玩家。
“大模型存在明显的炒作过热倾向,行业应该更加理性,而不是套着大模型概念做资本或者业务的炒作。我自己的观点是,真的不要去考虑端到端地去做一个大模型,对于非要做的企业,我只能说有机会,但是挑战很大。”一家互联网大厂大模型产品负责人对钛媒体表示。
在学术界看来,OpenAI并没有做出革命性的创新,本质是围绕AGI产品进行的“工程创新”,但正是工程化造就了OpenAI和大模型的成功,工程化体现在大模型研究、工程、产品、组织各个环节,算力训练集群也是如此。
“工程化做得好也很难,它证明了往上堆算力,堆数据是可以往前推进的。”微软技术中心首席架构师韩凯对钛媒体表示。
这一看似简单的逻辑背后,对企业而言却是极大的考验——看不见可能的出路,担心巨大的投入没有产出,这是*的风险,也是为什么国内没有先做出“ChatGPT”的原因——他们更多选择跟随,而不是对一条没被验证过的路投资。
算力集群的工程化,至少要突破三堵墙。
首先是“算力”墙。“完成一个千亿参数级别的大模型例如GPT-3需要314ZFLOPs算力的模型训练,而单卡只有312TFLOPS算力时,一张卡训练一个模型要耗时32年。所以需要引入分布式训练的方法,使用多机多卡的方式来加速模型的训练,包括比较常见的数据并行和张量并行。”天翼云资深专家陈希表示。
其次是“存储”墙。单显卡的显存已经无法加载千亿级参数。千亿级参数完全加载到显存大概需要几个TB,如果再考虑梯度、优化器状态等训练过程产生的一些中间结果,占用的显存量就更大了,往往需要上百张卡才可以支持。
所以厂商一般会引入流水线并行,将模型不同的层放到不同的节点的显卡内进行计算。对于这一组节点只需要加载某一些层的参数,降低显存的压力。
随之而来的是“通信”墙。大模型并行切分到集群后,模型切片间会产生大量通信,包括节点内多卡通信,节点间通信。几种并行方式都会涉及到大量的节点与节点间的通信,这时候就会对总线和总带宽都有很高的要求,要达到几百G的吞吐。
另外除了这三堵墙以外,还有一些其他问题:如大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显。最近几年随着transformer结构的引入,平均每两年,模型参数数量增长15倍。而相应的芯片制程从7nm提升到4nm,单卡算力增长不超过4倍,芯片工艺发展落后于大模型的需求。
大模型训练需要的不单单是算力,对存储,对安全,对训练框架都有一定的要求,需要一套比较完整的平台或服务来提供支持。“大家最近的一个普遍的感受,就是能满足大模型训练平台的提供商不多,高性能算力供应整体比较紧张。”陈希说。
2、为什么“他们”能成?
现在仍有不少企业毫无准备或者自我感觉有所准备,就冲进基础模型领域。
然而,如果细细研究现阶段做出基础模型的厂商,无一例外在AI领域都有足够积累,特别是底层基础设施层面,他们的实践也在验证“云是规模算力的*承载平台”这一判断。
“为了打造AI超级计算机,微软早在2018年就开始布局,除了OpenAI还投资了几个小公司,大数据是AI的前序,云计算基础设施是算力平台,大模型是算力、算法和数据的集合,微软的成功在于全栈能力。”韩凯表示。
回到国内,百度也遵循类似的逻辑。百度副总裁谢广军提到,算力和存储一定要达到更高的密度,才能够支持大模型。显著的问题还有网络互联,大模型训练用的比较多的显卡是带有NVLink高速互连的A800,需要比传统云计算做到更低延时、更高带宽,大量的小文件,也需要低延时、高存储的基础设施。
“大模型跑起来之后,还有非常多的地方需要加速,像通信需要加速、显存需要压缩、整个推理也需要加速。百度智能云能够把调优手段集成到基础库,对于大模型计算和推理非常有帮助。”谢广军说。
从平台的视角来说,不管是训练任务还是推理任务,单个的任务就需要非常长的时间,需要占用很多资源。怎么能够保证资源的充分利用,以及降低它的训练和推理时间。这里面需要切任务、调度、并行,对于模型训练的加速比和并行度的支撑。
同时,一个平台上往往有有很多任务,如何灵活调度,进而能够让这些任务充分地使用资源,甚至能够感知到异构算力的拓扑,使得平台效率得到提升……这类AI任务调度、容器化支持方面都有非常多的工作需要去做。
以文心一言的训练为例,千卡规模的A100或者A800数据并行加速比达到90%,其中用了非常多的调优手段和技术,百度智能云围绕着大模型一层一层做优化,在平台上分成了AI 计算、AI 存储、AI 加速和 AI 容器等四层,共同组成了 AI IaaS,这些基础设施可以支持上万亿参数大模型的训练。
此外,预训练模型需要通过千卡以上的集群训练,而在大多数情况,精调或者微调更普遍,基于大模型训练行业模型,相当于在树干上长树枝,不需要超大规模的集群,小几十张卡足以满足企业所需训练资源。
达观数据将在7月份正式推出国产版GPT“曹植”系统,也是得益于多年文本智能技术积累和垂直领域场景业务经验,算法和数据层面有所储备,而在测试阶段的算力层面,达观数据CEO陈运文表示,自建算力数据中心较为吃力,达观寻求了多种算力平台的支持,包括运营商算力中心、鹏程实验室等。
达观数据也曾尝试某家头部云厂商的GPU算力,但经过测算成本太高,租一年半下来的成本,足够达观数据自家购置一个自己的算力平台,达观数据选择了英伟达DGX高性能工作站方案,相当于英伟达自身做了很多集群优化,解决了存储和网络的大部分问题,直接买GPU卡自建集群和英伟达解决方案相比,综合性能相差一倍。
“我们自己的模型训练成本其实还是很高的,但是我们帮客户算过账,模型在推理阶段需要的算力投入并不大,很多客户只要单机多卡就够,硬件投入不算很大,但是给客户带来的效果和体验提升非常明显。”陈运文表示。
3、英伟达不只有GPU
小厂商用英伟达的商业技术补齐能力,大厂商以英伟达的硬件为核心构建高性能计算集群、提升性能,进一步缩短训练时间……基本所有厂商的大模型的推理、训练都高度依赖英伟达的GPU。
来自市场的消息显示,A800的价格一度超过8万元人民币,A100更贵,甚至超过9万元。
“英伟达的策略是既要确保每家大客户都能拿到货,同时又不会完全满足其短时大量的需求,这使得英伟达GPU保持在一个供应紧张的状态。”一位业内人士表示,英伟达全球A100的产能并不缺,供货没有问题,对于禁售A100之后,*中国的替代品A800,英伟达特意开了一条产品线,因其产能相对有限,造成了供需矛盾。
一些厂商也在想其他办法,比如在香港建立算力集群,同时H800和A800复用了一部分产品线,未来H800的产能上来之后或许会压制A800,不排除英伟达会继续增加适用于中国市场的产线。
除了产量,高企的价格也源于英伟达芯片的工程化能力,这是其成为大模型训练核心的决定性原因。
业界内外对英伟达有两种极端认知:一种认为,英伟达难以战胜;另一种是诸多厂商在PPT上“吊打”英伟达。然而,即便在理念和先进性上*,但这一切只停留在芯片设计环节,没有真正工业落地,也就无从对比。
现实情况是,在大模型算力领域,英伟达的壁垒在于GPU+NVlink/Infiniband网络+CUDA的组合能力。
以英伟达最新发布的GH200GraceHopper超级芯片,以及拥有256个GH200超级芯片的DGXGH200超级计算机为例,产品性能上至少*其他厂商一个身位。
涉及到算力集群,RDMA网络成为大模型时代的底层通信技术,业内主要使用的是Infiniband、RoCE,NVlink仅用于GPU之间通信,InfiniBand网络则为通用高性能网络,既可用于GPU之间通信,也可用于CPU之间通信。
Infiniband网络以往在超算领域应用较为广泛,随后扩展至人工智能计算,2019年,英伟达以69亿美元收购迈络思,补全了自己了网络短板,目前IB较为成熟,很多厂商都在尝试自研RoCE路线,在部分场景下较IB网络还有一定差距。
例如文心一言,早在2021年6月,百度智能云开始规划全新的高性能GPU集群的建设,联合NVIDIA共同完成了可以容纳万卡以上规模的IB网络架构设计,集群中节点间的每张GPU卡都通过IB网络连接,并在2022年4月将集群建设完成,提供单集群EFLOPS级别的算力。
2023年3月,文心一言在这个高性能集群上诞生,并不断迭代出新的能力。目前,这个集群的规模还在不断扩大。NVIDIA中国区解决方案与工程总经理赖俊杰也提到,高速IB网络互联的GPU集群是大模型时代的关键基础设施。
据了解,百度仅半年时间就采购了数万片英伟达A800,其他互联网厂商的采购量也在上万片,刨除一开始发生了挤兑现象导致供不应求外,目前英伟达产品的供货周期在三个月以内。
CUDA(ComputeUnifiedDeviceArchitecture)软件生态,也是备受开发人员好评的产品,它允许开发者使用C/C++、Fortran等编程语言在英伟达GPU上进行并行计算,提供了强大的计算能力和高效的数据传输方式,使得GPU在科学计算、机器学习、深度学习等领域得到了广泛的应用。
目前,英伟达是大模型热潮中最受益的厂商,没有之一,即便是微软为OpenAI搭建的超级计算机,也依赖于英伟达的产品,绝大多数训练算力都来自于英伟达GPU,面对全球如雪花般飞来的订单,英伟达赚的盆满钵满。
其最新的2024财年*季度财报显示,英伟达数据中心业务营收为42.8亿美元,创下历史纪录,与上年同期相比增长14%,与上一财季相比增长18%,股价也创下历史新高。财报具有滞后性,大模型带来的业绩增收还没有完全体现在财报上。
4、国产算力的机会
在自主创新的大背景下,大模型算力也在加速拥抱国产化,大家的态度是远期普遍看好,短期仍有挑战。大模型时代到来之后,很多国产芯片虽然有所准备,但是在*的芯片上存在一定的差距。
燧原COO张亚林表示,当前所有人在做大模型训练的时候,时间至关重要,现在大家需要成熟的产品,不会倾向于选用国产化芯片,避免遇到一些稳定性或者成熟度的问题。
但推理层面是国产芯片的机会,张亚林表示,推理模型本身支持的方向比较单一,只要在推理模型上做到*的调优,把性价比拿出来,很多用户反而愿意用国产化芯片。“我认为现在国产芯片应该倒过来,先做推理和微调,然后慢慢通过研究所、高校、国家级实验室的研究,牵引到集群化的能力,从推理到训练的曲线会更加合理。”他说。
谢广军提到,AI芯片的发展比摩尔定律更加激进,也会有更大的下降空间。算力短缺一方面算力跟不上需求,另一方面,还是由于整个供应形势所带来的问题。
“大模型的需求也会加速国产芯片的迭代。以昆仑芯来讲,今年年底昆仑第三代,更加适合大模型,不管是训练还是推理,包括通信、显存都会有非常大的提升。我相信其他的国产算力也是这样的,国产算力更具备竞争力,会使得整个算力成本进一步下降,而且是加速下降。”谢广军说。
钛媒体App了解到,今年国产芯片的发展呈现错位状态,国产芯片还没有对标到英伟达*的产品,比如A100。有几家国产芯片厂商已经预备在今年晚些时候,推出类似的对标产品。不论是训练还是推理,国产芯片的发展或多或少有一些滞后。
与之对应地,英伟达芯片供应相对紧张,国产算力在明年之后,会有比较大的机会,现在算力市场还在急剧增长,国产芯片的匹配度不够,主要还是英伟达在增长,如果需求匹配上之后,国内芯片会有很大的机会。
张亚林表示,如果燧原要真的“杀”到互联网客户场景,一定是在他们需要的场景和业务下,具备1.5倍的英伟达产品性能,和两倍的性价比。
“互联网客户普遍追求*性价比,但是在集群方面要看TCO(总体拥有成本),集群的软硬件整体价格、运维服务部署等,比如我1000卡的集群,跟英伟达的600卡集群对比,可能性能差不多,但是我性价比更高,同时我提供更好的定制化的服务支持,在市场上也是很有竞争力的。”他说。
6月,关于大模型算力的讨论渐歇,基础模型厂商初窥门径,要么身体力行地去训练大模型,要么买到更有性价比的算力,但总体来说,以算力为中心的大模型基础设施,成本依然处于较高的水平。
IT产业总是遵循否定之否定的钟摆定理,在大模型的产业热潮中,接下来算力的各个环节如何进化,也更值得期待。(文中张阳为化名)
标签:
您可能也感兴趣:
今日热点
为您推荐
军队抽组医疗力量承担 武汉火神山医院医疗救治任务
同马来西亚总理马哈蒂尔通电话 创造更多合作成果,造福两国和两国人民。
构筑起疫情防控的严密防线
排行
- 腾龙股份股东王柳芳减持302.01万股 价格区间为14.81-15.90元/股
- 因个人资金需要 新泉股份实际控制人唐志华拟减持不超1124.54万股
- 信捷电气股东邹骏宇减持50万股 价格区间为60.41-67.50元/股
- 国家卫健委:湖北以30个省外新增病例17例
- 因自身资金需求 科森科技股东徐宁拟减持不超3.71万股公司股份
- 中公高科股东潘玉利减持50万股 价格区间为20-20.60元/股
- 多地患者治愈后“复阳” 对疫情防控提出新挑战 五大焦点权威解析
- “精诚合作,打赢这一仗!”
- 生态环境部:自1月20日以来全国已累计处置医疗废物12.3万吨 ...
- 承诺两年扭转乱象 银保监会加快推进意外险费率市场化改革 ...
精彩推送
- 从狂热到理性:大模型训练三堵墙,一场少数人的游戏 全球新视野
- 月成交额超45亿,谁在Temu上赚钱了? 环球新视野
- 大模型「抗癌」,AI技术能续命?
- 资产重组意味着什么?为什么要重组而不直接破产?
- 【世界速看料】玻利维亚政府牵手俄罗斯和中国两家公司 开发...
- 美畅股份主要产品是什么?美畅股份最新股票行情介绍
- 1-5月中国国有企业利润同比增长10.9%
- 定期寿险属于什么保险?定期寿险有没有现金价值?
- 为何金砖国家正在世界舞台上崛起?
- 南大光电成立于哪一年?南大光电最新股票行情介绍
- 财政部:前5月国有企业营业总收入同比增长6.2%
- 华联控股是一家什么企业?华联控股行业地位怎么样?
- 6月份中国制造业PMI小幅回升 天天速看
- 民和股份成立于哪一年?民和股份主要产品是什么?
- 安利股份(300218.SZ):积极推进与新能源汽车领域客户的合作,...
- 6月份中国制造业PMI小幅回升 大型企业重返扩张区间 世界消息
- 2023中国国际新型储能发展峰会将于10月在深圳举办|世界要闻
- 5个月,100万人买30万以上汽车背后:四个真相一个隐患 观热点
- 今年海外找工作,难哭了多少留学生 世界快看点
- 2023国际数字能源展在深启幕,鼎和保险展现数字化转型成果-天...
- 搞颜色品牌争夺战-微资讯
- 微速讯:“一秒一公里”,深圳携手华为数字能源等企业共建“...
- 2022年全国教育经费总投入61344亿元,比上年增长6%-当前短讯
- 【世界独家】吉安市大力发展电子信息产业
- 南昌市大力发展高端装备制造产业
- 为什么要寻找专利代理机构来申请专利?_环球新要闻
- 「狙击龙虎榜午盘」主线行情迟迟未归市场延续轮动 市场情绪...
- 天天动态:鸡西市消防救援支队开展纪念建党102周年活动
- 提供富锂锰动力电池解决方案,陀普科技完成数千万元天使轮融...
- 盘和林:零利率不可取,发展经济本质要靠科技创新_头条
- 中部城市竞争力崛起:襄阳超越洛阳、宜昌增速最快
- 大湾区早报|深圳中山共建珠三角首个跨市经济合作区域;今年...
- 【短期融资券发行结果】23宁波建工SCP003票面利率为2.5600%
- 巾帼不让须眉,刘翠兰让品质成为力量
- 天天精选!震惊!南昌万亿俱乐部迎新成员,江西11市GDP预测出炉
- 中国贸促会:全球经贸摩擦措施涉及金额同比下降21.4%,环比下...
- 姜虹任南方科技大学党委书记 讯息
- 投资人抢硅
- 信邦制药主导产品是什么?信邦制药行业地位怎么样?
- 日出东方是一家什么公司?日出东方主要产品是什么?
- 金银河始建于哪一年?金银河行业口碑怎么样?
- 世界简讯:镇远县:建立落实长效机制 锁牢社保 基金“保险箱”
- 西丽小学学子戴嘉航两度入选国家乒乓球少儿集训队
- 国润储能完成近2亿元A轮融资,加速全钒液流电池落地-焦点速看
- 东方金诚王青:6月制造业PMI指数处于收缩区间主要是需求不足_...
- 南宁经济体量状况思考:庞大城市发展相对弱的原因
- 江浙两省城市人均可支配收入排名出炉:杭州与苏州超7万元!
- 全球热议:失业保险金领取最长期限是多久 领取失业保险金需要...
- 24GB内存,手机标配!
- 武汉豪宅抢刚需 全球热推荐
- 太原小店区:山西省的骄傲
- 晶科能源李仙德:我为什么坚定地看好光伏?-快播
- 焦点日报:“江浙沪”:财政收入最高的10个城市!
- 天天快报!【别当欧尼酱了】美图系列(3)
- 当前热文:吉利沃飞长空完成超亿元A轮融资,华控基金领投
- 「鼠头鸭脖」幕后餐企被扒,营收堪比海底捞?_环球即时看
- 焦点速看:竞价单页_竞价单页
- 重庆女子怒剪32件婚纱事件,为何会引发3.3亿网友争议?
- csgo搬砖有风险吗?csgo红信是不是就废了?
- 被时代拍在沙滩上的Kindle
- TCL创始人、董事长李东生:企业全球化为世界经济复苏注入新动力
- csgo搬砖工具箱怎么找?csgo红色信用还有救吗?
- csgo搬砖新手容易吗?csgo搬砖工具常用有哪些?
- 《消失的她》拍短剧、传统影视公司下场,「微短剧」正在变长?
- csgo88skins官网适合新手吗?csgo开什么箱子性价比高?
- 181skins开箱官网地址是什么?181skins开箱怎么换货?
- csgo皮肤卖了能提现吗?开箱子csgo开刀哪个好?
- kkcsgo新人cdk在哪获得?kkcsgo开箱网站怎么提现?
- 不足24小时!“深圳惠民保”投保即将截止_资讯
- 财政部:1-5月国有企业利润总额17838.1亿元,同比增长10.9%
- 海南椰岛被耽误的7年
- 决胜2025,国产数据库大战金融市场
- 上线两个月,米哈游再造《原神》了吗? 世界聚看点
- csgo开龙狙的箱子多少钱?csgo古堡龙狙开箱子要多少钱?
- csgo怎么一下子开一堆箱子?csgo开箱50个要多少钱?
- csgo小号开箱子有加成么?csgo箱子只能一个一个开吗?
- 有史最卷618,如何不浪费广告费
- 全球新资讯:财政部:国有企业前5月营业总收 同比增6.2%至32...
- 台当局公布5月经济景气概况:连续7个月现低迷 增长动能偏低-...
- 当前关注:中部六省省会城市竞争激烈,热力图揭示出新的趋势
- 很老旧的电脑很卡怎么办_每日速递
- 2023年前两月出口额前40城市:宁波超过东莞,北京超过金华
- 中小学教师“职称新政”突破了啥
- 2021城市百强排名!香港评选的百强城市,还挺谦虚!
- 恒辉安防:公司生产的超高分子量聚乙烯纤维除用于自己的功能...
- 合肥:中国城市可持续发展的新亮点 全球速递
- 财政部:前5月国有企业利润总额17838.1亿元 同比增长10.9%
- 焦点滚动:财政部:前5月国有企业利润总额同比增10.9%
- 世界热点!上“山”下“海” 当好乡村振兴“金扶手”
- 财政部:前5月国有企业利润总额17838.1亿元,同比增长10.9%
- 环境,助力发展经济#的目标的实现。 环球热闻
- 九阴真经怎么下载_九阴真经怎么赚钱 全球视点
- 康诺思腾完成新一轮8亿元融资,VC/PE阵容豪华|每日精选
- 持安科技完成数千万元新一轮融资,斯道资本,红点中国领投 ...
- 天天快报!让阅读充实暑期生活
- 投资界24h|美团收购王慧文的光年之外,20亿;中金启辰新基金...
- 美团全资收购光年之外,王兴接棒王慧文布局大模型_天天快消息
- 3个月亏30万,我在闲鱼转卖快递网点
- 新华社权威快报丨7月新规来了 将这样影响你我-环球动态
- 伊拉克外交部召见瑞典驻伊大使 谴责焚烧宗教典籍一事 天天最资讯