华为大模型用了多少台服务器?

截至目前(2024年),华为官方并未公开披露其训练大模型(如盘古大模型)所使用的具体服务器数量。不过,根据公开信息和行业分析,我们可以进行一些合理的推测:

  1. 盘古大模型的规模
    华为的“盘古”系列大模型包括多个版本,如盘古3.0,参数量达到数千亿级别,属于超大规模语言模型。这类模型的训练通常需要数千张高性能AI提速卡(如NPU或GPU)协同工作。

  2. 基于昇腾AI集群的部署
    华为主要使用自研的昇腾(Ascend)AI处理器(如Ascend 910)构建AI训练集群。一个典型的昇腾AI服务器(如Atlas 800T)可搭载8张Ascend 910芯片。
    根据华为在昇腾AI生态大会上的介绍,其建设了多个大型AI算力中心(如成都、贵安等),单个集群可提供数千PetaFLOPS的算力。

  3. 估算服务器数量
    若以训练千亿级大模型为例,通常需要数千到上万张AI提速卡。假设使用Ascend 910 NPU:

    • 每台服务器配备8张NPU → 需要约500至2000台服务器(即4000~16000张NPU)。
    • 实际训练中可能采用多阶段、分布式训练,结合数据并行、模型并行等技术,因此具体数量会因架构优化而减少。
  4. 华为云与集群支持
    华为云提供了基于昇腾的AI训练服务,其“盘古大模型”是在华为全栈自研的AI基础设施上训练完成的,包括MindSpore框架、CANN软件栈和Atlas硬件平台。

结论
虽然没有确切数字,但综合行业惯例和华为的技术能力,可以合理推测:

华为训练盘古大模型时,动用了数百到上千台搭载昇腾AI芯片的服务器组成的高性能计算集群,具体数量可能在500~2000台之间,取决于模型规模和训练效率优化。

如需更精确的数据,需等待华为官方发布相关技术白皮书或论文。