截至目前(2024年),华为官方并未公开披露其训练大模型(如盘古大模型)所使用的具体服务器数量。不过,根据公开信息和行业分析,我们可以进行一些合理的推测:
-
盘古大模型的规模
华为的“盘古”系列大模型包括多个版本,如盘古3.0,参数量达到数千亿级别,属于超大规模语言模型。这类模型的训练通常需要数千张高性能AI提速卡(如NPU或GPU)协同工作。 -
基于昇腾AI集群的部署
华为主要使用自研的昇腾(Ascend)AI处理器(如Ascend 910)构建AI训练集群。一个典型的昇腾AI服务器(如Atlas 800T)可搭载8张Ascend 910芯片。
根据华为在昇腾AI生态大会上的介绍,其建设了多个大型AI算力中心(如成都、贵安等),单个集群可提供数千PetaFLOPS的算力。 -
估算服务器数量
若以训练千亿级大模型为例,通常需要数千到上万张AI提速卡。假设使用Ascend 910 NPU:- 每台服务器配备8张NPU → 需要约500至2000台服务器(即4000~16000张NPU)。
- 实际训练中可能采用多阶段、分布式训练,结合数据并行、模型并行等技术,因此具体数量会因架构优化而减少。
-
华为云与集群支持
华为云提供了基于昇腾的AI训练服务,其“盘古大模型”是在华为全栈自研的AI基础设施上训练完成的,包括MindSpore框架、CANN软件栈和Atlas硬件平台。
✅ 结论:
虽然没有确切数字,但综合行业惯例和华为的技术能力,可以合理推测:
华为训练盘古大模型时,动用了数百到上千台搭载昇腾AI芯片的服务器组成的高性能计算集群,具体数量可能在500~2000台之间,取决于模型规模和训练效率优化。
如需更精确的数据,需等待华为官方发布相关技术白皮书或论文。
PHPWP博客