华为发布盘古 Ultra:7180 亿参数准万亿模型落地昇腾平台,RL 训练进入超节点集群时代 5 月 30 日,华为正式推出盘古 Ultra MoE 模型——这是一款参数规模达到 7180 亿、全流程部署在昇腾 AI 平台的准万亿级稀疏专家模型,代表国产大模型在高效训练与算力适配方面的一次重大飞跃。 盘古 Ultra 并非单纯参数量的堆砌,而是在深度优化下的性能突破。其核心技术之一为 DSSN(Depth-Scaled Sandwich-Norm)架构搭配 TinyInit 小规模初始化方案,在面对超过 18TB 的训练数据时,保持了训练过程的长期稳定性。这一突破使得高难度 MoE 训练首次在昇腾平台上稳定运行成为现实。 值得一提的是,盘古 Ultra 还引入了强化学习后训练技术,并首次将其扩展至昇腾 CloudMatrix 384 超节点集群,实现大稀疏比 MoE 模型的 RL 框架协同进化。这标志着 RL 模型训练正迈入超节点并行的新阶段,打破了以往大模型在训练阶段算力资源受限的瓶颈。 此外,自 5 月初预训练系统加速方案发布以来,盘古团队又在不到一个月内完成多项系统级优化迭代。包括适配昇腾硬件特性的流水线掩盖策略、算子调度优化、Host-Bound 抑制、EP 通信效率提升、Attention 负载均衡策略以及亲和算子的引入。这些技术联动最终将超大集群的预训练 MFU(Model FLOP Utilization)由原来的 30% 提升至 41%,大幅提升训练效能。 盘古 Ultra 的发布不仅展示了华为在软硬协同、分布式训练与系统调优方面的深厚积累,也预示着国产 AI 模型生态正逐步形成以昇腾为算力核心的自主闭环,为大模型国产化与通用智能的未来奠定了底座。
华为发布盘古Ultra:7180亿参数准万亿模型落地昇腾平台,RL训练进入
科技鸿蒙
2025-05-30 21:10:09
0
阅读:2