您的位置:首页 >快讯 >

大模型“暴力计算”时代,昇腾如何突围算力之困?

2023-07-11 09:42:56    来源:光锥智能公众号

声明:本文来自于微信公众号 光锥智能(ID:guangzhui-tech),作者:姚 悦,授权站长之家转载发布。

“这两年内,大模型带来了750倍算力需求的增长,而硬件的算力供给(增长)仅有3倍。”华为昇腾计算业务总裁张迪煊在2023世界人工智能大会上,揭开了被大模型“暴力计算”引发巨大算力缺口的真相。


【资料图】

而这个算力缺口还在进一步扩大当中,张迪煊预计,到2030年 AI 所需的算力,相对2020年还会增长500倍。

与此同时,由于众所周知的原因,算力国产化也迫在眉睫。

针对如何补足算力短板,毕马威中国数字化赋能主管合伙人张庆杰认为,需从三大途径解决,分别是算力建设、基础设施的共享与优化、算法的优化和数据的质量。这其中,算力建设被摆在首要位置。

华为在近年算力建设中颇为积极。据中信证券7月研报,国内现有城市智算中心中,以建设数量计,目前华为占据整体智算中心约79%的市场份额。

除了以量取胜,提升算力集群的能力更为重要。就在2023世界人工智能大会上,华为宣布昇腾AI集群全面升级,集群规模从最初的4000卡集群扩展至16000卡,算力集群迎来“万卡”时代。

华为轮值董事长胡厚崑表示,昇腾AI的集群相当于把AI的算力中心当做一台超级计算机来进行设计,使得昇腾AI集群的性能效率达到10%以上的提升,而且系统稳定性得到十倍以上的提高。

张迪煊在群访中亦对光锥智能透露,早在2018年,华为就判断人工智能会快速发展,并改变过去小模型的开发模式,形成大算力结合大数据生成大模型的模式,所以华为那时候就开始开发算力集群产品。

步入AI时代,已经无法再像单机系统时代那样靠堆芯片拉升算力,而是要系统化重塑算力基建。在扩大巨量算力供给的同时,要解决算力利用率、使用门槛高等问题,最终还要实现算力生态化。

算力集群迎来“万卡”时代

今年ChatGPT引爆算力需求后,硬件端最先火的是GPU,英伟达总市值年内已经上涨了66%,最新为1.05万亿美元。

以英伟达A100为主的GPU成了大模型必备的香饽饽,但仅靠堆卡也无法应对“百模大战”的爆发之势。那么,如何把宝贵的算力资源,发挥到极致?

既然单个服务器已经很难满足计算需求,于是将多个服务器连接成一台“超级计算机”,正在成为当下“算力基建”的主攻方向,这台“超级计算机”就是算力集群。

2019年,华为就发布了Atlas900AI训练集群,当时由数千颗华为自研昇腾910(主要用于训练)AI芯片构成,到今年6月已经支持到8000卡。而在刚刚结束的世界人工智能大会上,华为更是宣布计划今年年底或者明年年初,做到超过16000张卡的集群。

万卡集群是什么概念?

以1750亿参数量的GPT-3模型训练为例,使用8张V100显卡,训练时长预计要36年,512张V100显卡,训练时间接近7个月,而1024张A100的训练时长可以减少到1个月。

按照华为的评估,训练GPT-3模型,100B的数据量,在8000卡的Atlas900AI集群下需1天即可完成训练,16000卡集群下仅需半天即可完成。

但别看“万卡”算力大、效率高,真正想要用它去训练模型,绝非易事。

正像中国工程院院士高文所说,“有人说全世界能在1000块卡上同时选连一个模型的只有几千人,能在4000块卡上训练的不超过100个人,在10000块卡上训练模型的人数更少了”,在千卡和万卡上训练和推理数据,对于软件规划、资源调度挑战非常大。

首先,万卡量级的训练,对分布式并行训练提出了更高的要求。分布式并行训练是一种高效的机器学习方式,将大规模数据集分成多个部分,再在多个计算节点上并行训练模型。这样可以极大缩短训练时间,提高模型准确性和可靠性。

昇腾算力集群的分布式并行训练,就需要倚仗华为自研的昇思MindSpore AI框架。

昇思MindSpore支持多种模型类型,还开发了一套自动混合并行解决方案,实现数据并行和模型并行的混合并行训练。

相同算力和网络下,这样的双并行策略可实现更大的计算通信比,同时还解决了手动并行架构的现实困难,让大模型开发和调优效率提升。

此外,由于分布式并行训练,每训练出一个结果,需要所有的芯片同步一次,这个过程中,会有出错的概率。这种情况放在万卡规模量级上,就对于稳定性提出更高要求。

“昇腾的可靠性和可用性的设计,可以做到30天长稳的训练,对比业界的最先进3天左右水平,提升了将近10倍性能的稳定性、可用性优势。”张迪煊表示。

算力集群的效率如何提升?

算力集群还不仅仅是规模扩大,效率也需要有很大提升,否则就会出现卡数越多,算力利用率反而下降的问题。

以华为在内蒙古乌兰察布市部署的数千卡规模的AI集群为例,在同等算力下,计算效率能够提升10%以上。

如果按照昇腾的指标,1000卡的算力约300P,千卡就能提升约30P,万卡就能提升约300P。

“300P算力24小时可以处理数十亿张图像、数千万人DNA、10年左右的自动驾驶数据。”一位从事云计算业务的人士向光锥智能表示,提升算力效率,也就降低了计算成本。

如果说从千卡的300P到万卡的3000P还得靠堆卡“大力出奇迹”,那这10%的效率提升,背后就需要更为复杂的系统性升级。

除了整合华为的云、计算、存储、网络、能源综合优势,昇腾算力集群还进行了架构创新。

一台服务器就是一个节点,华为在计算节点层面创造性推出了对等平构架构,突破传统了以CPU为中心的异构计算带来的性能瓶颈,从而提升整个计算的带宽、降低时延,节点性能得到30%的提升。

此外,算力可是用电超级大户,尤其是上百台服务器联合起来,降低能耗也需要同步实现。

计算能力提升,服务器能耗也越来越高,传统风冷已经无法支撑高散热,就亟需解决如何能在政策严格限制PUE(电力使用效率)的情况下,仍保证服务器散热能力的问题。

在几种散热路线中,液冷被认为是主流的解决方案之一。

液冷方案本就比传统风冷方案更省电,昇腾采用了直接把冷夜注入每块芯片的精准供给方式,相比浸没式(流浪地球中放入海底的方案),可以降低日常运维的成本,也减少冷却液泄露污染环境的风险。

“精准供给取决于芯片板卡上都设置传感器、电控阀门,再加上中央控制,可以实现为不同芯片在不同的负荷下,提供精细化冷量输送。”华为计算工作人员向光锥智能介绍。

2021年11月,发改委等部门发布的文件明确指出,新建大型、超大型数据中心PUE低于1.3,而内蒙古、贵州、甘肃、宁夏节点的数据中心的PUE更是要控制在1.2以下。昇腾的算力集群已经实现低于1.15的PUE。

降低算力门槛,要靠生态

“电力是即插即用的,基本上不需要教老百姓怎么用。而算力,即便你提供给企业,很多人是不会用的。”中国工程院院士、中国互联网协会咨询委员会主任邬贺铨表示,现在算力(使用)门槛太高。

一位业内人士也向光锥智能表示:“中小企业很难得到训练服务器的技术支持,加上国产软件生态缺失,中小企业也很难自己玩转。”

即便算力集群怎么强大,需求端打不开,也终将会制约整个算力发展。而AI算力能否达到像电力一样的“低门槛”使用标准,生态尤为重要。

这也是为什么英伟达当年遭受华尔街的“白眼”,也要不计成本投入CUDA软件系统的原因。正是CUDA,实现让一个普通学生就可以进行显卡编程,英伟达进而利用软硬件协同,打造生态系统,最大程度扩大了算力供应。

除了英伟达,苹果在实现良好的用户体验方面,更早印证了生态系统的重要性。

当前,华为昇腾已经搭建了一套自主创新的软硬件全栈系统,包括昇腾AI集群系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、昇腾应用使能MindX以及一站式开发平台ModelArts等。CANN正是对标英伟达的CUDA + CuDNN的核心软件层。

张迪煊表示,“昇腾AI支持了中国近一半原创大模型的原生创新,也是目前国内唯一完成千亿参数大模型开发并商用的技术路线,各开源的Transformer类大模型实测训练性能,可以达到业界的1.2倍。”

这些背后,则是华为将上述的软件开源、硬件开放。

首先,在基础软件上,昇腾围绕大模型开发、训练、微调、推理等全流程,进行了一系列的开源和支持。

除了已将AI框架昇思MindSpore开源,昇腾还提供了大模型的开发套件,可以支持十几行代码的全流程脚本开发。用张迪煊的话讲,就是“为了让大模型开发做到开箱即用”。

微调是大模型具备行业属性的关键环节,对应用效果起决定性作用。对此,华为昇腾提供了低参微调模块,集成了多种微调算法。张迪煊介绍,包括 LoRA、P-Tuning 等仅需5%的微调参数,可实现全参微调的效果。

此外,针对大模型推理部署难、成本高等一系列的问题,华为昇腾在开发工具链 MindStudio 上集成了自动剪枝、蒸馏、量化工具,“精度损失0.5%的基础上,做到了20倍的模型压缩”张迪煊介绍,推理阶段支持在线分布推理,能够使应用快速上线,推理时延小于50毫秒。

“张迪煊介绍,推理阶段支持在线分布推理,能够使应用快速上线,推理时延小于50毫秒。

硬件方面,华为也对外提供主板、SSD、网卡、RAID卡、Atlas模组和板卡,来支持合作对象的AI硬件产品开发。

基于当前算力供应紧缺的情况,华为昇腾也重点针对“算子和模型”,提出了的迁移、适配的方案。

训推一体化

行业落地最后一公里

在初步搭建算力生态后,能否持续良性运转,最终还要回归到大模型商业化的问题上。

“不作诗,只做事”,华为刚刚发布的大模型盘古3.0,与其他国内大模型一样,落地的重点都放在了“行业”身上。而且盘古大模型已经在天气预测、药物研发和选煤等诸多行业、超过1000个项目中“上岗”。

不过,对于国产大模型整体来说,在深度满足行业需求上,还面临一些问题。

“企业的需求非常具体,比如‘在这堆垃圾里,识别出有价值的金属’,这经过训练的小学生就可以做到,而对于大模型,企业的这种需求就太重了,而且可能最终的效果也不是很好。”企业服务商用友的一位工作人员向光锥智能表示,直接调用通用AI能力,无法满足行业中广泛存在的差异化智能需求。

华为把大模型分成三个层级,L0、L1、L2。L0就是基础通用模型,在基础模型L0的基础上,加上行业数据,混合训练得到的行业大模型是L1,然后再把L1针对具体下游千行百业的细分场景进行一些部署,得到细分场景的任务模型L2。

现在,无论是对于华为还是其他大模型企业,如何从行业大模型L1中快速生产L2模型,还有部署L2模型到端侧、边侧和云侧,成为打通行业应用最后一公里的问题。

针对这最后一公里,昇腾联合科大讯飞、智谱AI、云从等上游的大模型合作对象,提出了“训推一体化”方案。

简单理解,做模型训练就相当于大学学习阶段,推理部署(训练好的模型在特定环境中运行)就是正式上岗,训推一体化就是“边学习边实习”。

通用大模型一般都是基于广泛的公开文献与网络信息来训练,信息混杂,许多专业知识与行业数据积累不足,会导致模型的行业针对性与精准度不够,数据“噪音”过大。同时,又由于行业数据获取难,技术与行业结合难,大模型在行业的落地进展较慢。

训推一体化,支持中心节点将模型下发至企业的边缘节点进行推理,边缘站点再将数据回传至中心,进行算法更新和增量训练,实现自主演进能力。也就是,“学生主动向更适应就业岗位的方向深造”。

这样一来,就保证训练到推理的循环生产流程不再割裂。并且把发展行业大模型更大的主动权,交到了行业和企业自身,无疑能最大化满足行业的AI应用与开发场景,实现AI基础设施与行业需求深度融合。

相较于中心训练、边缘推理,训推一体化对于中小企业来说,部署成本也会更低,更会加速中小企业加入行业、场景大模型的“培养”。

对于整个算力生态来说,尽快打通这最后一公里,也就意味着被真正激活,才会有可持续的发展。

标签:

精彩放送

ST通葡:拟向控股股东定增募资不超3.39亿元

假期学习不停歇,郑州42中举行暑期德育研讨会

6月中小企业发展指数发布 工业建筑业等多个指数升幅明显

motiongo怎么安装到wps 安装到wps方法详情

《崩坏星穹铁道》刃强不强值得抽吗 刃角色培养及玩法攻略大全

《崩坏星穹铁道》卡芙卡强不强值得抽吗 卡芙卡角色培养及玩法攻略大全

崩坏星穹铁道娜塔莎培养方法 娜塔莎配队配装词条介绍

《原神》神秘信函从天而降任务完成方法

motiongo下载 motiongo插件下载

以高位像素艺术风格创作的动作平台游戏《超级猫猫哥》公布

单次登录送5元代金券

原神琳妮特天赋升级材料需要什么-琳妮特天赋升级材料一览

哈利波特魔法觉醒考试周漂浮咒怎么过-考试周漂浮咒攻略

逆水寒手游一念执意怎么玩 逆水寒手游一念执意攻略大全

汉字找茬王找字堡怎么过-汉字找茬王找字堡通关攻略

三国志11:这些个没能在游戏里露脸的汉末名爹,都是有一技之长的

LPL夏季赛第六周最佳阵容:Bin连续三周拿到最佳上路

《潜水员戴夫》员工属性作用介绍

《崩坏星穹铁道》1.2前瞻直播内容介绍

《翼星求生》异质获得方法

《异星工厂》火车找不到路径解决方法

《潜水员戴夫》菜品升级所需材料数介绍

《水浒传OL》7月11日-7月18日储值活动

光速变脸:世嘉与区块链游戏平台合作 为其授权知名IP

喝椰汁不摆Pose,都不配叫日本人

《原神》米卡装备及队伍搭配指南

驱灵者新伊甸的幽灵有什么背景剧情

《文字玩出花》怎么通过镜中新娘关卡

《逆水寒》手游完成菩提真味任务的流程一览

《长安三万里》真正意义上的中国动画电影史诗

信号闪烁!油市反攻号角即将吹响?

宝格丽与王者荣耀跨界合作 首款定制数字珠宝皮肤亮相

美元/加元今日行情走势交易策略(2023年7月10日)

2023年产品设计专业大学排名及分数线(附专业介绍)

耐攻才是天策的出路?神武150天策现状,输出不够紫电来凑

饥荒联机版噩梦猪人多久刷新一次

光遇时刻季兑换图

《潜水员戴夫》经理员工技能推荐

motiongo官网入口motiongo官网地址详情

《原神》恢复如初银瓶裹藏的故事任务方法

芈月宝格丽首曝,娜扎COS绝美,2史诗值得换,西游天幕11号下架

PS3模拟器RPCS3新版GPU性能改进 《恶魔之魂》等演示

心渊梦境隐者的宝剑武器怎么样

双厨狂喜!《间谍过家家》《碟中谍7》联动宣传公开

推特危!扎克伯格的推特竞品用户数破亿了

《博德之门3》不担心和《星空》比较:两者并不一样

《潜水员戴夫》海葡萄位置介绍

《潜水员戴夫》食材处理达人技能使用教学

《王者荣耀》十大必买皮肤一览

《文字玩出花》怎么通过女友查岗关卡

王者猎人最强阵容推荐 五大顶级阵容组合

命运方舟新手职业推荐

手机打开mht文件 mht文件怎么打开

河北保定蠡县2023年度第三季度220千伏变电站分布式光伏可开放容量为0

基督再临(基佬搞基)

2023初三舞蹈艺考生怎么考高中 有什么方法

百亿私募洛书投资艾方资产旗下数只基金年内跌超10%

躁动夏天:哒哒岛艺术节彩排

成熟度相当高!湖人用双向合同淘到了一名全能型后场球员?

德意志银行熊奕:中国经济有望进一步复苏 预计2023年经济增速可达6%

逆水寒手游歧路难返任务怎么完成 歧路难返任务攻略

原神深海龙蜥吞雷在哪 怎么打 深海龙蜥吞雷怪物资料

云顶之弈裁决天使阵容搭配攻略 裁决天使阵容怎么搭配

逆水寒手游歧路难返任务怎么做 歧路难返任务完成攻略

妖精的尾巴激斗露西角色测评

妖精的尾巴激斗纳兹角色测评

4AM新基地即将启用,GODV终于超越了PDD,当上了电竞圈的真大佬!

《潜水员戴夫》冰鳐捕捉攻略

《潜水员戴夫》寄居蟹BOSS打法教程

《潜水员戴夫》员工配置心得

心渊梦境林中剑武器怎么样

《潜水员戴夫》存档位置介绍

炎炎夏日,PUBG全新蓝圈攻防模式抢先预约!别样爆破引燃整个暑期

逆水寒手游舞阳城老五打法机制分享

守塔不能停兑换码大全

梦幻的城极品兑换码汇总 9个有效礼包码合集

三峡旅游:上半年净利预计5500万元-6500万元 同比扭亏

1199元!小米米家智能晾衣机1S多功能版上架预约

新款Beosound 2家居音响新配色上架:自然色、雅黑色和金色三种配色

湖北孝昌农商银行 “智慧微贷”体现支农服务加速度

丁伟:满意球队的求胜欲和精神面貌 弗雷泽的情况以后再说

定期存款到期银行却不给取钱?原因主要有4方面,很多人还不知道

丝路上的面孔,“交融汇聚——新疆精品历史文物展”掠影

原创 游戏反外挂天花板?网友:毕竟谁敢当警察蜀黍面撒野呢

什么叫“赛博RNJ”?PUBG玩家网恋四年,被对方操作折服卖房奔现

怎么解锁原神寒天之钉

石器时代手游《恐龙神奇宝贝》新服塔姆塔姆村上线,活动福利等你领!

纷玩岛什么时候寄票 纷玩岛什么时候发货

《城市天际线》商品不够怎么办 商品不够方法分享

《城市天际线》怎么导入真实地图导入真实地图方法分享

云顶之弈S9伊泽拉克鸡阵容玩法攻略

性感和可爱并存 韩服《剑灵》“2023泳装”展示视频公开

《Only Down》steam页面上线 换个方向一直向下

心渊梦境剑武器怎么样

《潜水员戴夫》麦克风位置介绍

《潜水员戴夫》电子宠物更换方法介绍

《潜水员戴夫》网枪使用技巧

《潜水员戴夫》熔岩龟捕捉方法

《潜水员戴夫》全三星鱼图鉴位置一览

末日血战红包版英雄排行 最强英雄推荐