一文看懂AI算力集群—九游体育Jiuyou|官方网站

一文看懂AI算力集群

九游新闻 | 2025-07-26 20:31

　　大家在讨论AI时，经常会提到AI算力集群。AI的三要素——算力、算法和数据，而AI算力集群，就是目前最主要的算力来源，它就像一个超级发电厂，可以给AI浪潮提供源源不断的动力。

　　那么，AI算力集群，到底是由哪些东西组成的呢？它为什么能够提供澎湃的算力？它的内部结构又是怎样的呢？包括了哪些关键技术？

　　AI算力集群，顾名思义，就是能够为AI计算任务提供算力的集群系统。集群，英文是cluster，指的是一组相互独立的、通过高速网络互联的设备。

　　网上也有定义指出，AI算力集群，指的是“通过高速网络，将大量高性能计算节点（如GPU/TPU服务器）互联，从而形成的一种分布式计算系统。”

　　所谓AI智算，无非就是训练和推理两大任务。训练的计算量大、难度高，对算力的要求也高。推理的计算量相对较小，难度相对较低，对算力的要求也低。

　　无论是训练和推理，都涉及到大量的矩阵运算（如卷积、张量乘法）任务。这些计算天然可以分解为独立子任务进行并行处理。所以，擅长并行计算的GPU、NPU、TPU等芯片，就成为了AI计算的主要工具。这些芯片被统称为AI芯片。

　　AI芯片是提供AI算力的最基本单元。单个芯片是无法工作的，需要集成在电路板上。

　　于是，将AI芯片嵌入在手机主板上，或者直接集成到手机SoC主芯片上，就可以为手机提供AI算力。集成在物联网设备模组上，就可以为物联网设备（如汽车、机械臂、AGV无人车、摄像头等）提供AI算力。这些是端侧算力。

　　将AI芯片做成AI算力板卡，然后在一个服务器里集成多块AI算力板卡，就形成了AI服务器。

　　一般来说，AI服务器是一机八卡，最多也可以集成二十卡。但是，限于散热和功耗，想要集成更多，就不太现实了。

　　此时的AI服务器，算力又提升了一个数量级。完成推理任务，更加驾轻就熟。一些简单的训练任务（小模型），它也可以勉强胜任。

　　今年崛起的DeepSeek大模型，因为在架构和算法上进行了优化，大幅降低了对算力的要求。所以，就有很多厂商，设计了单机架的计算设备（包括若干台AI服务器、存储、电源等），并将其命名为“一体机”，可以满足很多行业企业用户DeepSeek大模型私有化部署的需求。

　　不管是AI服务器还是一体机，AI算力仍然是有限的。针对真正的海量参数（千亿级、万亿级）大模型训练，仍然需要更强劲的AI算力。

　　现在经常会听说“万卡规模”、“十万卡规模”，意思就是说，要打造的目标AI算力集群，需要一万块、十万块AI算力板卡（AI芯片）。

　　Scale，是扩展的意思。Scale Up，是向上扩展，也叫纵向扩展，增加单节点的资源数量；Scale Out，是向外扩展，也叫横向扩展，增加节点的数量。

　　前面提到的，在每台服务器里多集成几块AI算力板卡，这就是Scale Up。这时，一台服务器就是一个节点。

　　Scale Up和Scale Out最主要的区别，在于AI芯片之间的连接速率。

　　Scale Up是节点内部连接。它的连接速率更高，时延更低，性能更强劲。

　　以前，计算机内部元件之间的通信主要基于PCIe协议。这个协议诞生于上世纪80-90年代PC刚刚普及的时候。虽然协议后来也有升级，但升级速度缓慢，数据传输速率和时延根本无法满足要求需求。

　　于是，2014年，英伟达专门推出了NVLINK总线协议。NVLINK允许GPU之间以点对点方式进行通信，速度远高于PCIe，时延也低得多。

　　NVLINK原本只用于机器内部通信。2022年，英伟达将NVSwitch芯片独立出来，变成了NVLink交换机，用于连接服务器之间的GPU设备。

　　这意味着，节点已经不再仅限于1台服务器了，而是可以由多台服务器和网络设备共同组成。

　　这些设备处于同一个HBD（High Bandwidth Domain，超带宽域）。英伟达将这种以超大带宽互联16卡以上GPU-GPU的Scale Up系统，称为超节点。

　　英伟达是AI计算领域毫无疑问的领军者。他们有最受欢迎的AI芯片（GPU）和软件生态（CUDA），也探索出了最有效的Scale Up实现方式。

　　后来，随着AI的不断发展，越来越多的企业也开始推出AI芯片。因为NVLINK是私有协议，所以，这些推出AI芯片的企业，也要研究如何搭建自己的AI算力集群。

　　英伟达海外的主要竞争对手之一，AMD公司，推出了UA LINK。国内的腾讯、阿里、中国移动等企业，也牵头推出了ETH-X、ALS、OISA等项目。

　　这些都是开放标准，成本比私有协议更低，也有利于降低行业门槛，帮助实现技术平权，符合互联网开放解耦的发展趋势。

　　值得一提的是，这些标准基本上都是以以太网技术（ETH）为基础。因为以太网技术最成熟、最开放，拥有很好的产业链基础。

　　另一个非常值得关注的技术路线，就是华为的私有协议UB（Unified Bus）。

　　最近几年，华为一直在打造昇腾生态。昇腾是华为的AI芯片，目前发展到了昇腾910C。他们也需要自己的AI算力集群解决方案，最大程度地发挥910C的能量，也为市场推广铺平道路。

　　今年4月，华为高调发布CloudMatrix384超节点，集成了384张昇腾910C算力卡，可提供高达300 Pflops的密集BF16算力，接近达到英伟达GB200 NVL72系统的两倍。

　　三个平面互补，实现了CloudMatrix384极强的卡间通信能力，也实现了整个超节点的算力提升。

　　需要再说明一下，面对开放标准的竞争压力，英伟达前段时间公布了NVLink Fusion计划，向8家合作伙伴开放了其NVLink技术，以帮助他们构建通过将多个芯片连接在一起的定制AI系统。

　　但是，根据一些媒体的报道，其中一些关键的NVLink组件仍然是未开放的。

　　Scale Out，其实就接近于传统意义上的数据通信网络了。把传统服务器连接起来的技术，包括胖树架构、叶脊网络架构那些，还有TCP/IP、以太网那些技术，都是Scale Out的基础。

　　当然了，AI智算对网络性能的要求很高，所以，传统技术也要升级，才能满足条件。

　　这两个技术都是基于RDMA（远程直接内存访问）协议，拥有比传统以太网更高的速率、更低的时延，负载均衡能力也更强。

　　IB当年也是为了取代PCIe而推出的技术，后来起起伏伏，掌握这项技术的Mellanox（迈络思）公司被英伟达收购。IB也变成了英伟达的私有技术。

　　RoCEv2，则是开放标准，是传统以太网融合RDMA的产物，也是产业界为了对抗IB一家独大所推出的产物。它的价格便宜，和IB的性能差距也在不断缩小。

　　比起Scale Up领域的多个标准，Scale Out目前标准相对集中，主要就是RoCEv2，路线非常清晰。毕竟，Scale Up是节点内，和芯片产品强相关。Scale Out是节点外，更强调兼容性。

　　如前所述，Scale Up和Scale Out最主要的区别在于速率带宽。

　　在时延方面，Scale Up和Scale Out也有很大的差距。IB和RoCEv2的时延高达10微秒。而Scale Up对网络时延的要求极为严苛，需要达到百纳秒（100纳秒=0.1微秒）级别。

　　在AI训练过程中，包括多种并行计算方式，例如TP（张量并行）、 EP（专家并行）、PP（流水线并行）和DP（数据并行）。

　　通常来说，PP和DP的通信量较小，一般交给Scale Out搞定。而TP和EP的通信量大，需要交给Scale Up（超节点内部）搞定。

　　超节点，作为Scale Up的当前最优解，通过内部高速总线互连，能够有效支撑并行计算任务，加速GPU之间的参数交换和数据同步，缩短大模型的训练周期。

　　超节点一般也都会支持内存语义能力，GPU之间可以直接读取对方的内存，这也是Scale Out不具备的。

　　超节点的HBD（超带宽域）越大，Scale Up的GPU越多，Scale Out的组网就越简单，大幅降低组网复杂度。

　　Scale Up系统是一个高度集成的小型集群，内部总线已经连好。这也降低了网络部署的难度，缩短了部署周期。后期的运维，也会方便很多。

　　当然，Scale Up也不能无限扩大，也要考虑本身的成本因素。具体的规模，需要根据需求场景进行测算。

　　概括来说，Scale Up和Scale Out，就是性能和成本之间的平衡。随着时间的推移和技术的进步，以后肯定还会出现更大规模的超节点。Scale Up和Scale Out之间的边界，也会越来越模糊。

　　前面提到的ETH-X等开放Scale Up标准，都是基于以太网技术。从技术的角度来看，以太网具有最大交换芯片容量（单芯片51.2T已商用）、最高速Serdes技术（目前达到112Gbps），交换芯片时延也很低（200ns），完全可以满足Scale Up的性能要求。

　　AI算力集群正在向万卡、十万卡方向发展。英伟达NVL72的1个机架有72颗芯片，华为CM384的16个机架有384颗芯片。华为基于CM384搞十万卡，需要432套（384×432=165888），那就是6912个机架。

　　所以，现在业界在探索异地数据中心共同组成AI算力集群，协力完成AI训练任务。这个非常考验长距离、大带宽、低时延的DCI光通信技术，会加速空芯光纤等前沿技术的应用。

　　计算资源（GPU、NPU、CPU，甚至包括内存、硬盘）的池化成为趋势。集群需要充分适配AI大模型的架构（例如MoE架构），提供定制性的设计，才能更好地完成计算任务。

　　众所周知，AI大模型训练容易出错。严重的时候，几个小时就错一次。错了就要重新算，不仅延长了训练周期，也增加了训练成本。

　　所以，企业在打造AI算力集群的时候，越来越关注系统的可靠性和稳定性。引入各种AI技术，对潜在故障进行预判，对亚健康设备或模块进行提前替换，成为一种趋势。

　　这些技术有利于降低故障率和中断率，增强系统稳定性，也等于是变相提升了算力。

　　AI智算需要消耗大量的算力，也会产生很高的能耗，所以目前各大厂商都在努力研究如何降低AI智算集群的能耗，提升绿色能源的使用比例，这也有利于AI智算的长远发展。我们国家的东数西算战略，其实也是出于这方面的目的。

九游体育（9Game）官方网站

一文看懂AI算力集群

联系信息

热点资讯

算力即战力！华为算力与军工信息化：科技强军的隐形翅膀

一文看懂AI算力集群

快捷导航

扫描二维码