AI算力中心构建方法与流程

  九游新闻     |      2025-07-25 10:12

  1、人工智能算力中心平台建设为基于公司自用及业务链上下游企业租用,满足3d数字资产创制的算力需求所建设的小型化人工智能算力中心。其建设内容包括人工智能算力平台和ai技术服务平台,其中人工智能算力平台主要是购置并安装服务器等硬件,为整个项目提供基础的算力;ai技术服务平台则主要是集成并开发适配于3d数字资产创制的的软件,并通过调用人工智能算力平台硬件的算力,向客户提供服务。算力平台和技术服务平台为互补关系,共同构成人工智能算力中心。

  2、目前现有的ai算力中心的构建主要包括硬件平台的建设和软件平台的建设,硬件平台的建设无需多说,只需要将所需要的硬件进行连接,然后接通电源即可,核心在于软件平台的构建,通过构建的软件平台来分配算力中心的算力,以此更好的给企业服务,然而目前并没有较为合适的软件平台的构建方法,以准确快速的实现ai算力中心构建。

  1、针对现有技术存在的不足,本发明的目的在于提供一种能够准确快速的实现ai算力中心构建的ai算力中心构建方法。

  2、为实现上述目的,本发明提供了如下技术方案:一种ai算力中心构建方法,其特征在于:包括如下步骤:

  3、步骤一,构建ai算力使能子系统,用于面向ai计算集群子系统和使能硬件设备以及开发者,用于ai算法模型的开发、训练;

  5、步骤三,构建运营系统,通过该运营系统聚合ai算力子系统、ai算力使能子系统、ai算力服务平台、ai集群网络与安全子系统、基础平台服务、安全防护服务和ai集群软件服务,形成面向客户的入口门户。

  6、作为本发明的进一步改进,所述步骤一中构建的ai算力使能子系统包括:异构计算架构软件,用于支撑开发者自定义算子开发;

  9、统一编程接口昇腾计算语言库,用于提供统一、规范化的接口部件,包括device管理、context管理、stream管理、内存管理、模型加载与执行、算子加载与执行、媒体数据处理、graph管理这些api库,为用户提供使能各部件能力的编程接口,供用户开发深度神经网络应用;

  10、图优化和编译模块,用于对不同的前端提供统一的ir接口对接,支持tensorflow/caffe/mindspore表达的计算图的解析/优化/编译,提供对后端计算引擎最优化部署能力,充分发挥设备性能;

  11、计算执行引擎,用于负责神经网络各种类型算子的调度和执行、内存等资源以及通信管理等,输出计算结果;

  12、算子编译模块和算子库,用于提供ascend算子开发和编译能力,使能芯片能力;计算库,用于提供神经网络、基础线性代数、集合通信、媒体数据预处理等计算库,支持用户使用、构建ai模型;

  13、计算调优引擎,包含两个插件,autotune插件,用于支持单算子以及整图两种调优模式,可以根据模型、数据特征,自动化生成知识库,并应用到实际部署过程以获取高性能;模型压缩插件,以框架插件形式提供模型量化、稀疏能力,支持calibration、retrain,实现模型的小型化。

  15、ge模块,该ge模块作为图编译和运行的控制中心,提供图运行环境管理、图执行引擎管理、算子库管理、子图优化管理、图操作管理和图执行控制;

  16、fe模块,该fe模块用于管理算子的融合规则、依据融合规则对irgraph进行匹配和算子融合操作、对系统支持的算子进行管理和维护算子列表、支持自定义算子;

  18、hccl模块,该hccl模块用于负责hccl的算子信息管理,用于提供hccl实现参与并行计算的所有worker的梯度聚合功能,为ascend多机多卡训练提供数据并行方案。

  20、神经网络库,用于作为昇腾神经网络加速库,内置丰富算子,支撑神经网络训练和推理加速;

  23、媒体数据预处理模块,用于实现视频解码、视频编码、jpeg解码、jpeg编码、png解码、vpc,编解码库通过硬件加速进行图像预处理,降低对cpu的使用,提升图像预处理并行处理能力。

  25、模型层,为用户提供开箱即用的功能,该层包含预置的模型和开发套件以及图神经网络、深度概率编程、科学计算库这些热点研究领域拓展库;

  26、表达层,为用户提供ai模型开发、训练、推理的接口,支持用户用原生python语法开发和调试神经网络,同时该层在生产和部署阶段提供全场景统一的c++/python接口;

  27、编译优化层,该编译优化层作为ai框架的核心,以全场景统一中间表达为媒介,将前端表达编译成执行效率更高的底层语言,同时进行全局性能优化,包括自动微分、代数化简这些硬件无关优化,以及图算融合、算子生成这些硬件相关优化;

  28、运行层,该运行层按照编译优化层编译优化的结果对接并调用底层硬件算子,同时通过“端-边云”统一的运行时架构,支持包括联邦学习在内的“端-边-云”ai协同。

  29、作为本发明的进一步改进,所述编译优化层还包括有自动混合并行优化步骤,具体包括数据并行、自动并行和异构并行,并行具体步骤如下:

  30、步骤1,每次开始进行并行训练前,通过调用t接口初始化通信资源,并自动创建全局通信组world_comm_group;

  33、步骤4,进行梯度计算,并在梯度计算以后插入分布式算子实现各卡间的梯度聚合操作;

  35、作为本发明的进一步改进,所述步骤4中插入了分布式算子之后,以分布式算子为单位对张量进行切分建模,表示一个算子的输入输出张量如何分布到集群各个卡上,获得张量排布模型。

  36、作为本发明的进一步改进,所述步骤4中每个算子都具有切分策略,所述切分策略由两个元祖构成,分别表示input和weight的切分形式,其中元组中的元素与张量维度一一对应,2^n为切分份数,

  39、步骤三一,部署算力模块,在计算服务器上的云主机部署ai集群软件服务的核心组件及其依赖服务;

  40、步骤三二,建立安全建设模块,该安全建设模块内存有项目经理、各职能部门及施工班组负责人信息,并在项目经理信息打上第一责任人标签,各职能部门及施工班组负责人信息打上分级负责标签,以供用户查询。

  41、本发明的有益效果,通过步骤一至步骤三的作用,便可有效的构建出ai算力中心,该ai算力中心满足如下需求:

  42、算法训练平台:算法平台可以异构兼容,即在不同的硬件、操作系统、网络环境下都能正常运行。在通用算力cpu方面,可兼容x86/arm不同架构的cpu服务器;在算力方面,除了英伟达系列gpu外,可以同时兼容华为昇腾系列npu训练芯片ascend910、fpga芯片等接入管理,方便企业用户在构建异构算力集群时,底层算力芯片可进行多样性选择。

  43、算法推理平台:算法推理平台可以对推理服务器进行集群管理,算法统一下发与调用,也可以兼容国产与英伟达不同芯片体系,使集群的算力调度和使用可以达到一个立项的状态,在客户调用算法时,可以做到完整高效。

  44、算法仓库平台:基于训练平台开发出来的算法,通过该平台对外开放至市场端,客户可以根据自己的需求使用saas化的算法服务,对外使用服务时,可以通过推理平台来提供算力的调度和支持,算法仓库可以根据客户的需求,不断地增加和调整,算法增加和调整都需要训练算力的支持。

  45、数据自助建模软件:采用可视化编程软件,达到低代码甚至无代码开发的水平,可以根据客户或者自己收集的数据,进行自助建模,无监督学习等功能。