大家在讨论AI时,经常会提到AI算力集群。AI的三要素——算力、算法和数据,而AI算力集群,就是目前最主要的算力来源,它就像一个超级发电厂,可以给AI浪潮提供源源不断的动力。
那么,AI算力集群,到底是由哪些东西组成的呢?它为什么能够提供澎湃的算力?它的内部结构又是怎样的呢?包括了哪些关键技术?
AI算力集群,顾名思义,就是能够为AI计算任务提供算力的集群系统。集群,英文是cluster,指的是一组相互独立的、通过高速网络互联的设备。
网上也有定义指出,AI算力集群,指的是“通过高速网络,将大量高性能计算节点(如GPU/TPU服务器)互联,从而形成的一种分布式计算系统。”
所谓AI智算,无非就是训练和推理两大任务。训练的计算量大、难度高,对算力的要求也高。推理的计算量相对较小,难度相对较低,对算力的要求也低。
无论是训练和推理,都涉及到大量的矩阵运算(如卷积、张量乘法)任务。这些计算天然可以分解为独立子任务进行并行处理。所以,擅长并行计算的GPU、NPU、TPU等芯片,就成为了AI计算的主要工具。这些芯片被统称为AI芯片。
AI芯片是提供AI算力的最基本单元。单个芯片是无法工作的,需要集成在电路板上。
于是,将AI芯片嵌入在手机主板上,或者直接集成到手机SoC主芯片上,就可以为手机提供AI算力。集成在物联网设备模组上,就可以为物联网设备(如汽车、机械臂、AGV无人车、摄像头等)提供AI算力。这些是端侧算力。
将AI芯片做成AI算力板卡,然后在一个服务器里集成多块AI算力板卡,就形成了AI服务器。
一般来说,AI服务器是一机八卡,最多也可以集成二十卡。但是,限于散热和功耗,想要集成更多,就不太现实了。
此时的AI服务器,算力又提升了一个数量级。完成推理任务,更加驾轻就熟。一些简单的训练任务(小模型),它也可以勉强胜任。
今年崛起的DeepSeek大模型,因为在架构和算法上进行了优化,大幅降低了对算力的要求。所以,就有很多厂商,设计了单机架的计算设备(包括若干台AI服务器、存储、电源等),并将其命名为“一体机”,可以满足很多行业企业用户DeepSeek大模型私有化部署的需求。
不管是AI服务器还是一体机,AI算力仍然是有限的。针对真正的海量参数(千亿级、万亿级)大模型训练,仍然需要更强劲的AI算力。
现在经常会听说“万卡规模”、“十万卡规模”,意思就是说,要打造的目标AI算力集群,需要一万块、十万块AI算力板卡(AI芯片)。
Scale,是扩展的意思。Scale Up,是向上扩展,也叫纵向扩展,增加单节点的资源数量;Scale Out,是向外扩展,也叫横向扩展,增加节点的数量。
前面提到的,在每台服务器里多集成几块AI算力板卡,这就是Scale Up。这时,一台服务器就是一个节点。
Scale Up和Scale Out最主要的区别,在于AI芯片之间的连接速率。
Scale Up是节点内部连接。它的连接速率更高,时延更低,性能更强劲。
以前,计算机内部元件之间的通信主要基于PCIe协议。这个协议诞生于上世纪80-90年代PC刚刚普及的时候。虽然协议后来也有升级,但升级速度缓慢,数据传输速率和时延根本无法满足要求需求。
于是,2014年,英伟达专门推出了NVLINK总线协议。NVLINK允许GPU之间以点对点方式进行通信,速度远高于PCIe,时延也低得多。
NVLINK原本只用于机器内部通信。2022年,英伟达将NVSwitch芯片独立出来,变成了NVLink交换机,用于连接服务器之间的GPU设备。
这意味着,节点已经不再仅限于1台服务器了,而是可以由多台服务器和网络设备共同组成。
这些设备处于同一个HBD(High Bandwidth Domain,超带宽域)。英伟达将这种以超大带宽互联16卡以上GPU-GPU的Scale Up系统,称为超节点。
英伟达是AI计算领域毫无疑问的领军者。他们有最受欢迎的AI芯片(GPU)和软件生态(CUDA),也探索出了最有效的Scale Up实现方式。
后来,随着AI的不断发展,越来越多的企业也开始推出AI芯片。因为NVLINK是私有协议,所以,这些推出AI芯片的企业,也要研究如何搭建自己的AI算力集群。
英伟达海外的主要竞争对手之一,AMD公司,推出了UA LINK。国内的腾讯、阿里、中国移动等企业,也牵头推出了ETH-X、ALS、OISA等项目。
这些都是开放标准,成本比私有协议更低,也有利于降低行业门槛,帮助实现技术平权,符合互联网开放解耦的发展趋势。
值得一提的是,这些标准基本上都是以以太网技术(ETH)为基础。因为以太网技术最成熟、最开放,拥有很好的产业链基础。
另一个非常值得关注的技术路线,就是华为的私有协议UB(Unified Bus)。
最近几年,华为一直在打造昇腾生态。昇腾是华为的AI芯片,目前发展到了昇腾910C。他们也需要自己的AI算力集群解决方案,最大程度地发挥910C的能量,也为市场推广铺平道路。
今年4月,华为高调发布CloudMatrix384超节点,集成了384张昇腾910C算力卡,可提供高达300 Pflops的密集BF16算力,接近达到英伟达GB200 NVL72系统的两倍。
三个平面互补,实现了CloudMatrix384极强的卡间通信能力,也实现了整个超节点的算力提升。
需要再说明一下,面对开放标准的竞争压力,英伟达前段时间公布了NVLink Fusion计划,向8家合作伙伴开放了其NVLink技术,以帮助他们构建通过将多个芯片连接在一起的定制AI系统。
但是,根据一些媒体的报道,其中一些关键的NVLink组件仍然是未开放的。
Scale Out,其实就接近于传统意义上的数据通信网络了。把传统服务器连接起来的技术,包括胖树架构、叶脊网络架构那些,还有TCP/IP、以太网那些技术,都是Scale Out的基础。
当然了,AI智算对网络性能的要求很高,所以,传统技术也要升级,才能满足条件。
这两个技术都是基于RDMA(远程直接内存访问)协议,拥有比传统以太网更高的速率、更低的时延,负载均衡能力也更强。
IB当年也是为了取代PCIe而推出的技术,后来起起伏伏,掌握这项技术的Mellanox(迈络思)公司被英伟达收购。IB也变成了英伟达的私有技术。
RoCEv2,则是开放标准,是传统以太网融合RDMA的产物,也是产业界为了对抗IB一家独大所推出的产物。它的价格便宜,和IB的性能差距也在不断缩小。
比起Scale Up领域的多个标准,Scale Out目前标准相对集中,主要就是RoCEv2,路线非常清晰。毕竟,Scale Up是节点内,和芯片产品强相关。Scale Out是节点外,更强调兼容性。
如前所述,Scale Up和Scale Out最主要的区别在于速率带宽。
在时延方面,Scale Up和Scale Out也有很大的差距。IB和RoCEv2的时延高达10微秒。而Scale Up对网络时延的要求极为严苛,需要达到百纳秒(100纳秒=0.1微秒)级别。
在AI训练过程中,包括多种并行计算方式,例如TP(张量并行)、 EP(专家并行)、PP(流水线并行)和DP(数据并行)。
通常来说,PP和DP的通信量较小,一般交给Scale Out搞定。而TP和EP的通信量大,需要交给Scale Up(超节点内部)搞定。
超节点,作为Scale Up的当前最优解,通过内部高速总线互连,能够有效支撑并行计算任务,加速GPU之间的参数交换和数据同步,缩短大模型的训练周期。
超节点一般也都会支持内存语义能力,GPU之间可以直接读取对方的内存,这也是Scale Out不具备的。
超节点的HBD(超带宽域)越大,Scale Up的GPU越多,Scale Out的组网就越简单,大幅降低组网复杂度。
Scale Up系统是一个高度集成的小型集群,内部总线已经连好。这也降低了网络部署的难度,缩短了部署周期。后期的运维,也会方便很多。
当然,Scale Up也不能无限扩大,也要考虑本身的成本因素。具体的规模,需要根据需求场景进行测算。
概括来说,Scale Up和Scale Out,就是性能和成本之间的平衡。随着时间的推移和技术的进步,以后肯定还会出现更大规模的超节点。Scale Up和Scale Out之间的边界,也会越来越模糊。
前面提到的ETH-X等开放Scale Up标准,都是基于以太网技术。从技术的角度来看,以太网具有最大交换芯片容量(单芯片51.2T已商用)、最高速Serdes技术(目前达到112Gbps),交换芯片时延也很低(200ns),完全可以满足Scale Up的性能要求。
AI算力集群正在向万卡、十万卡方向发展。英伟达NVL72的1个机架有72颗芯片,华为CM384的16个机架有384颗芯片。华为基于CM384搞十万卡,需要432套(384×432=165888),那就是6912个机架。
所以,现在业界在探索异地数据中心共同组成AI算力集群,协力完成AI训练任务。这个非常考验长距离、大带宽、低时延的DCI光通信技术,会加速空芯光纤等前沿技术的应用。
计算资源(GPU、NPU、CPU,甚至包括内存、硬盘)的池化成为趋势。集群需要充分适配AI大模型的架构(例如MoE架构),提供定制性的设计,才能更好地完成计算任务。
众所周知,AI大模型训练容易出错。严重的时候,几个小时就错一次。错了就要重新算,不仅延长了训练周期,也增加了训练成本。
所以,企业在打造AI算力集群的时候,越来越关注系统的可靠性和稳定性。引入各种AI技术,对潜在故障进行预判,对亚健康设备或模块进行提前替换,成为一种趋势。
这些技术有利于降低故障率和中断率,增强系统稳定性,也等于是变相提升了算力。
AI智算需要消耗大量的算力,也会产生很高的能耗,所以目前各大厂商都在努力研究如何降低AI智算集群的能耗,提升绿色能源的使用比例,这也有利于AI智算的长远发展。我们国家的东数西算战略,其实也是出于这方面的目的。