AI算力集群的主动测试方法、装置、设备、介质和产品与流程

  九游新闻     |      2025-08-01 01:45

  本发明涉及人工智能(artificial intelligence,ai),更具体的说,涉及ai算力集群的主动测试方法、装置、设备、介质和产品。

  1、‌ai算力集群‌是由多个节点组成的集合,这些节点通过网络相互连接,形成统一的计算资源池,可执行ai相关的计算任务。每个节点可以包含高性能的处理器、大量的内存和快速的存储系统,使得整个集群能够并行处理大量数据和复杂算法,从而加速ai模型的训练和推理过程‌。

  2、目前,通常在ai算力集群出现异常之后,再执行故障检测处理以确定故障类型。然而,这种异常出现之后才触发检测的被动方式,可能影响ai算力集群的稳定性和效率(比如,影响ai算力集群正在处理的计算任务的实时性与连续性)。

  1、本发明提出ai算力集群的主动测试方法、装置、设备、介质和产品,有助于提高ai算力集群的稳定性和效率。

  4、当确定到达主动测试时机时,预测ai算力集群中每个节点的可能故障类型及对应于所述可能故障类型的故障概率;

  6、基于所述测试节点的可能故障类型,从包含n个测试任务的测试集中确定与所述可能故障类型相匹配的测试子集,所述测试子集包含m个测试任务,其中m与n都是正整数,m小于或等于n;

  13、在一个实施方式中,所述预测ai算力集群中每个节点的可能故障类型及对应于所述可能故障类型的故障概率包括:

  14、基于每个节点的故障预测模型,预测每个节点的可能故障类型及对应于所述可能故障类型的故障概率;

  16、基于每个节点的历史检测数据,以预定的统计方式生成所述每个节点的故障预测模型;

  17、基于每个节点的历史检测数据和预定的机器学习算法,生成所述每个节点的故障预测模型;

  18、基于每个节点的训练数据集与预定的深度学习算法,对人工神经网络进行训练以得到所述每个节点的故障预测模型。

  19、在一个实施方式中,所述以预定的统计方式生成的、所述每个节点的故障预测模型具有相同的事件概率分布;

  20、所述基于每个节点的故障预测模型,预测每个节点的可能故障类型及对应于所述可能故障类型的故障概率包括:

  21、获取每个节点的实时检测数据,将所述实时检测数据输入所述每个节点的故障预测模型,以由所述每个节点的故障预测模型基于所述实时检测数据预测所述可能故障类型及对应于所述可能故障类型的故障概率。

  22、在一个实施方式中,所述基于每个节点的所述故障概率,从所述ai算力集群中确定测试节点包括:

  23、将每个节点的全部可能故障类型的故障概率与预定的第一阈值分别进行比较;

  24、基于比较结果,从所述ai算力集群中确定测试节点,其中所述测试节点的至少一个可能故障类型的故障概率大于或等于所述第一阈值。

  25、在一个实施方式中,所述基于所述测试节点的可能故障类型,从包含n个测试任务的测试集中确定与所述可能故障类型相匹配的测试子集包括:

  26、以贪婪算法从所述测试集中确定所述测试子集,其中所述测试子集针对所述可能故障类型的覆盖率满足预定的第二阈值,且所述测试子集的总运行时间最小。

  27、在一个实施方式中,所述基于所述测试子集,对所述测试节点执行测试包括:

  28、执行包含在所述测试子集中的所述m个测试任务,得到对应于所述m个测试任务的m个测试结果;

  29、针对所述m个测试结果中的每个测试结果,计算与对应的测试任务的离线标准的相似度,其中当所述相似度大于或等于关联于所述对应的测试任务的第三阈值时,确定通过所述对应的测试任务,当所述相似度小于所述第三阈值时,确定不通过所述对应的测试任务。

  31、当所述ai算力集群处于离线标准学习期时,在所述ai算力集群中的每个节点中执行包含所述n个测试任务的所述测试集,并基于全部节点执行所述测试集的测试结果,对所述n个测试任务中的每个测试任务执行无监督的离线标准学习,以确定每个测试任务的离线、在一个实施方式中,所述基于全部节点执行所述测试集的测试结果,对所述n个测试任务中的每个测试任务执行无监督的离线标准学习,以确定每个测试任务的离线、从全部节点执行相同的测试任务的测试结果中,去除错误测试结果;

  34、基于去除错误测试结果的剩余测试结果,确定所述测试任务的离线标准,其中所述剩余测试结果中的每个测试结果与所述离线标准的相似度,都大于或等于预定的第四阈值。

  35、在一个实施方式中,所述基于全部节点执行所述测试集的测试结果,对所述n个测试任务中的每个测试任务执行无监督的离线标准学习,以确定每个测试任务的离线、从全部节点执行相同的测试任务的测试结果中,去除错误测试结果;

  38、将所述中位数,确定为所述测试任务的离线、在一个实施方式中,所述测试任务包括下列中的至少一个:

  40、在节点上运行预定的深度学习模型,以间接测试节点硬件性能的第一测试任务;

  44、预测模块,用于当确定到达主动测试时机时,预测ai算力集群中每个节点的可能故障类型及对应于所述可能故障类型的故障概率;

  45、第一确定模块,用于基于每个节点的所述故障概率,从所述ai算力集群中确定测试节点;

  46、第二确定模块,用于基于所述测试节点的可能故障类型,从包含n个测试任务的测试集中确定与所述可能故障类型相匹配的测试子集,所述测试子集包含m个测试任务,其中m与n都是正整数,m小于或等于n;

  48、在一个实施方式中,所述预测模块,用于基于每个节点的故障预测模型,预测每个节点的可能故障类型及对应于所述可能故障类型的故障概率;

  50、基于每个节点的历史检测数据,以预定的统计方式生成所述每个节点的故障预测模型;

  51、基于每个节点的历史检测数据和预定的机器学习算法,生成所述每个节点的故障预测模型;

  52、基于每个节点的训练数据集与预定的深度学习算法,对人工神经网络进行训练以得到所述每个节点的故障预测模型;

  53、其中以预定的统计方式生成的、所述每个节点的故障预测模型具有相同的事件概率分布;

  54、所述基于每个节点的故障预测模型,预测每个节点的可能故障类型及对应于所述可能故障类型的故障概率包括:

  55、获取每个节点的实时检测数据,将所述实时检测数据输入所述每个节点的故障预测模型,以由所述每个节点的故障预测模型基于所述实时检测数据预测所述可能故障类型及对应于所述可能故障类型的故障概率。

  56、在一个实施方式中,所述测试模块,用于执行包含在所述测试子集中的所述m个测试任务,得到对应于所述m个测试任务的m个测试结果;针对所述m个测试结果中的每个测试结果,计算与对应的测试任务的离线标准的相似度,其中当所述相似度大于或等于关联于所述对应的测试任务的第三阈值时,确定通过所述对应的测试任务,当所述相似度小于所述第三阈值时,确定不通过所述对应的测试任务。

  60、其中所述存储器中存储有可被所述处理器执行的应用程序,用于使得所述处理器执行如上任一所述的ai算力集群的主动测试方法。

  61、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令在被处理器执行时,使所述处理器执行如上任一所述的ai算力集群的主动测试方法。

  62、一种程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上任一所述的ai算力集群的主动测试方法。

  63、从上述技术方案可以看出,当确定到达主动测试时机时,预测ai算力集群中每个节点的可能故障类型及对应于可能故障类型的故障概率;基于每个节点的故障概率,从ai算力集群中确定测试节点;基于测试节点的可能故障类型,从包含n个测试任务的测试集中确定与可能故障类型相匹配的测试子集,测试子集包含m个测试任务,其中m与n都是正整数,m小于或等于n;基于测试子集,对测试节点执行测试。因此,在出现故障之前对可能故障的节点执行主动测试,可以提高ai算力集群的整体稳定性和效率,比如可以解决冗余引起的性能退化问题。而且,基于多种方式生成节点的故障预测模型以及测试任务的离线标准,具有灵活的适用性。另外,基于预测结果从测试集中针对性地选择测试子集,可以降低测试任务量。还有,多种类型的测试任务,丰富了测试内容。