其中最受瞩目的,当属华为首次展出的昇腾384超节点线 SuperPoD,其集成了384颗昇腾NPU和192颗鲲鹏CPU,通过全新高速网络MatrixLink全对等互联,这超节点就像一台超级“AI服务器”,算力规模300 PFLOPs,接近
《中国经营报》记者在现场看到,在昇腾384超节点面前,不缺少前来打卡的人流以及向工作人员询问单机柜供电功率、散热方式等详情的业内人士,其中不乏台湾口音。记者注意到,沐曦科技、新华三、超聚变等厂商也在WAIC上展示各自的超节点方案,共同上演了一场中国智算超节点的“集体秀”。“这次WAIC大会,基本上国内所有
、服务器厂商都开始拥抱超节点。我们在去年提倡超节点的时候,大家还觉得很陌生,今年对这个趋势已没有任何疑问。”上海曦智科技有限公司(以下简称“曦智科技”)创始人、首席执行官沈亦晨博士表示。
记者还注意到,算力基础设施每年都在竞速创新,摩尔线程、沐曦科技、燧原科技等厂商都展出了最新的产品和解决方案。而且国产厂商也不再“比参数”,还出现了罕见的合作。比如四位国产AI芯片(沐曦科技、天数智芯、燧原科技和壁仞科技)高管首度同台,出现在大模型独角兽
——阶跃星辰的圆桌论坛上。对于此次较为罕见的合作,沐曦科技首席产品官兼高级副总裁孙国梁表示:“中国算力需求市场足够大,把国产所有的卡或者能力放在一个行业,可能都不够那个行业的快速发展。而中国的芯片需要百花齐放,因为每个行业有定制化的需求。”Omdia人工智能首席分析师苏廉节也表示:“这次合作的方向是提供高效易用的大模型解决方案,对整个生态是积极的。如果能提供从
由于AI算力需求的极速膨胀,万卡集群从去年开始一直是国产算力厂商满足算力供给的第一道门槛,摩尔线程、燧原科技、沐曦、壁仞科技等国产
厂商都已在万卡集群赛道上布局。至于十万卡,市场的主流选项主要是英伟达产品,国产厂商还缺乏存在感。
随着日益更新的大模型对算力需求激增,万亿参数大模型与多模态训练的兴起,促使算力集群跑步迈入超“万卡协同”时代。“怎样的算力形态能够满足当下或未来的大模型使用需求?超节点已经成为了公认的答案。随着模型规模扩大,我们需要更强大、更均衡的算力,带来更高性能的大规模并行运算能力。”新华三高级副总裁、云与计算存储产品线期间做分享时如此表示。据了解,超节点是由英伟达提出的“超级算力集群”概念,可以简单理解为将一台或几台高性能AI服务器作为一个“节点”,通过高速互联网络技术将多个节点“连接”成一整个规模更大、性能更强的“超级计算节点”,专门用来应对消耗算力最多、最复杂的AI大模型计算任务。
据中科院物理所介绍,超节点作为Scale Up(纵向扩展)的当前最优解,通过内部高速总线互连,它能有效支撑并行计算任务,加速GPU之间的参数交换和数据同步,能缩短大模型的训练周期。
“目前各个服务厂商、GPU厂商都来做超节点了。”壁仞科技OCS超节点项目相关负责人董朝锋表示,虽然超节点目前尚没有一个标准的行业定义,但节点相对来说定义明确,即单机8卡。“超节点是在单一节点的基础上,节点内有同样的性能,不管是带宽还是延迟。”
沈亦晨以英伟达去年发布的GB200 NVL72超节点(72张英伟达GB200 GPU互联)为例,在采用同样GPU的情况下,相比于把8卡服务器(传统节点)通过网络互连的传统方式(即把同样的GPU组成传统单机8卡服务器,再把9台单机8卡服务器互连,同样是72张GPU),NVL72这个超节点的吞吐量可以比非超节点提升3倍以上。在国内芯片制程没有进一步突破的前提下,匹配一个英伟达NVL72超节点的计算能力需要500张国产GPU。
柜,把更多的GPU放进单机柜里;另一条是使用多机柜,让GPU直接“出光”,就是具备跨机柜的互连能力。
而对应业界更为通俗的说法是,Scale Up和Scale Out(横向扩展)两种方式来构建大规模GPU集群。董朝锋表示,纵向拓展即在一个节点内尽可能多地增加GPU,例如一个千卡集群中,每64卡是一个超节点,在这个超节点中,可以做到卡间、机间的通讯带宽、通讯基本一致。“未来国内超节点方案,首先每个机柜内会尽量放更多算力,然后会有多个机柜通过光互连的方式连接成一个超节点。”沈亦晨表示,在底层芯片制程和能力上面,我国与美国不一样,但是“在互连能力、光芯片能力上,其实并不受限制”。
芯片厂商方面,沐曦在展台上晾出了多款超节点产品,比如Shanghai Cube国产高密度液冷整机柜,其采用47U单机柜4组超节点(1组超节点32x GPU、单机柜128x GPU)高密度液冷部署,8机柜并排组成千卡集群;耀龙S8000 G2超节点则首创3D Mesh互联技术,实现64张曦云C550通用GPU高速互联的超节点,通信性能提升4倍,支持DeepSeek、Qwen、Kimi-K2、阶跃Step3等主流大模型全场景应用。服务器厂商方面,中兴通讯
推出了智算超节点服务器,单机柜可搭载64颗GPU,还联合上海仪电、曦智科技和壁仞科技发布国内首个光互连光交换GPU超节点光跃LightSphere X;“老玩家”新华三带来了超节点产品H3C UniPod S80000的全球首秀,实现单机柜64卡高密部署及互联互通,并具备向1024卡互联演进的能力。
“新贵”超聚变则展出了全球首个多元智算即插即用超级集群系统,单柜128个AI加速卡,能实现112G/224G的高速互连;做到单柜240kW的超级供电,1柜顶32柜;使用第5代100%原生液冷,实现节能20%以上。同时,超聚变构建了全面的软硬件基础设施技术和算力生态,能兼容10多家加速卡,提供双生态南北向安全异构算力。除了超节点,国产算力厂商在WAIC2025上还给出了新产品和解决方案。国内全功能GPU芯片厂商摩尔线程首次提出“AI工厂”理念。摩尔线程创始人兼CEO张建中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施。
“业内最难做的一种工厂就是芯片工厂,芯片工厂叫Foundary。建立这个大型基础设施的难度就好比建Foundary一样,所以我称之为‘AI Foundary’。”张建中用芯片行业建晶圆厂类比AI工厂,而这座“AI工厂”的智能“产能”,由五大核心要素共同决定,摩尔线程将效率公式概括为:AI工厂生产效率=加速计算通用性×单芯片有效算力×单节点效率×集群效率×集群稳定性。
今年,摩尔线程再次展出旗下的夸娥集群系统,面向大规模智算中心,KUAE2智算集群解决方案覆盖FP64至FP8全精度计算,支持AI、图形、科学计算等全场景加速,最高支持10240个全功能GPU部署。
此外,沐曦和燧原科技还在同天发布了最新一代AI芯片。沐曦推出了曦云C600通用GPU,燧原科技推出了通推一体L600AI芯片。
据燧原科技创始人、董事长兼CEO赵立东的观察,在今年WAIC上,与算力相关的软硬件技术,包括超节点、网络技术、全光互连、低精度、分布式并行计算、虚拟化等,不再是芯片公司单独可以完成的事,需要跨行业协作、多方聚力构建系统化的解决方案。
事实上,当大模型迈向推理时代,国产大模型与国产AI芯片之间的协同却仍存在痛点。
就在国内大模型明星初创阶跃星辰发布新一代基础大模型Step 3的同时,其还发起了横跨模型、芯片和平台的“模芯生态创新联盟”,首批成员包括华为昇腾、沐曦、壁仞科技、燧原科技、天数智芯、无问芯穹、寒武纪、摩尔线程、硅基流动等。
在外界看来,这一重大举措不仅彰显“国芯”与“国模”的深度融合,更标志着“国用”生态的加速落地,推动中国AI产业迈向自主可控的新阶段。
记者注意到,在“模芯生态创新联盟”下,还间接促进了国产AI芯片企业之间的合作,四位
“阶跃星辰的Step 3针对国产算力做了优化。以前的GPT也好,甚至包括很多优秀的开源模型也好,它们终归不是为国产算力量身定做的。而Step 3的突破在于非常适合国产的算力卡,并且效果能达到世界领先的水准,这是它的巨大意义。”孙国梁表示,为了应对客户的场景性需求,需要芯片、模型和数据,以及整个产业链做越来越多的协同。孙国梁还提到,阶跃星辰是上海模型的代表,沐曦又是上海的GPU厂商,所以双方的合作是必然的。苏廉节也表示,“模芯生态创新联盟”虽说是上海市政府主推,但也能看到国家在背后积极支持厂商之间的合作。当然,要打造一套真正开箱可用的软硬件一体的服务系统,需要击穿到行业底层。“底层是最难的。
、设备以及算力集群和模型的适配等,都是我们面临的考验。这个模型适配完后,在行业上的应用服务和打通,也是我们必须要面临的问题。”孙国梁表示,沐曦希望击穿整个产业链,做好“国芯+国模+国用”这件事。
至于什么时候能做到“开箱即用”,孙国梁表示,虽然具体的时间点说不好,但已经完成了0到1的“能用”,下一阶段的“好用”以及“好用和易用”,每个阶段都有要解决的问题,预计“今年的Q4会达到更好的一个状态”。(文章来源:中国经营报)