华为盘古大模型5.5重磅发布:准万亿参数MoE架构引领国产AI新高度

在2025年华为开发者大会(HDC 2025)上,华为常务董事、华为云CEO张平安正式揭开了盘古大模型5.5的神秘面纱。这一版本不仅代表了华为在人工智能领域的最新技术结晶,更标志着国产大模型正式迈入全球顶尖竞争行列。从准万亿参数的MoE架构到首创的多模态世界模型,盘古5.5正在重新定义"中国智造"的技术高度。
准万亿参数MoE架构:盘古Ultra MoE的技术突破
盘古大模型5.5的核心亮点之一,便是其Ultra MoE模型——一个拥有7180亿参数的准万亿级MoE(混合专家)深度思考模型。该模型基于华为自研的昇腾全栈软硬件协同打造,在国内同类产品中处于领先地位,性能比肩世界一流水平。
训练超大规模且极高稀疏性的MoE模型,长期以来面临着稳定性难以保障的难题。华为盘古团队为此提出了Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,成功在基于昇腾NPU打造的CloudMatrix 384集群上实现了全流程稳定训练。此外,团队还创新性地引入了EP group loss负载优化策略,确保各专家之间的负载均衡,同时提升了专家的领域特化能力。
在架构层面,Ultra MoE采用了业界先进的MLA(多头潜在注意力)和MTP(多Token预测)架构,并运用了Dropless训练策略。得益于此,该模型在知识推理、自然科学、数学等领域的大模型评测榜单上均位列前沿,展现出高效长序列处理、深度思考、低幻觉等核心优势。
Pro MoE与Embedding:覆盖全场景模型矩阵
除了旗舰级的Ultra MoE,盘古5.5还推出了Pro MoE和Embedding(7B)两款模型,形成完整的NLP模型矩阵。Pro MoE采用720亿参数、160亿激活参数的架构设计,在SuperCLUE榜单的千亿参数量以内模型中并列国内第一。值得一提的是,其在智能体任务上的成绩甚至比肩拥有6710亿参数的DeepSeek-R1,在文本理解和创作领域也达到开源模型的领先水平。
华为针对昇腾硬件特性进行了大量仿真建模,使Pro MoE的架构深度适配300I Duo推理芯片。团队还提出了分组混合专家MoGE算法,实现跨芯片计算的负载均衡,显著提升了训推系统的吞吐效率。实测数据显示,Pro MoE在300I Duo上可实现每秒321 token的吞吐量,在800I A2上更是高达每秒1529 token,领先同规模业界模型15%以上。
而仅有70亿参数的盘古Embedding模型同样表现亮眼。通过渐进式SFT和多维度奖励的强化学习,该模型在学科知识、编码、数学和对话能力方面均优于同期同规模模型。华为还提出了Adaptive SWA和ESA两项关键技术,使其能够轻松应对100万token长度的超长上下文处理。
首创自适应快慢思考与世界模型
针对当前思考模型普遍存在的"过度思考"问题——即简单问题也需要消耗大量token——华为提出了自适应快慢思考合一技术。该技术通过构建难度感知的快慢思考数据,并采用两阶段渐进训练策略,让模型能够根据问题难易程度自动切换思考模式。简单问题快速回复,复杂问题深度思考,整体推理效率最高可提升8倍。
与此同时,华为还发布了基于盘古多模态大模型的世界模型,这在国内尚属首创。该模型能够为智能驾驶、具身智能机器人等场景构建所需的数字物理空间,实现持续优化迭代。例如在智能驾驶领域,只需输入首帧行车场景、控制信息和路网数据,世界模型即可生成每路摄像头的行车视频和激光雷达点云数据,大幅降低了对高成本路采数据的依赖。
五大基础模型全面升级,赋能千行百业
盘古大模型5.5不仅在NLP领域实现突破,其五大基础模型——自然语言处理、计算机视觉、多模态、预测、科学计算——均迎来全面升级。
在科学计算领域,深圳气象局基于盘古进一步升级了"智霁"大模型,首次实现AI集合预报,能更直观地反映天气系统的演变可能性。在计算机视觉方面,华为发布了全新MoE架构的300亿参数视觉大模型,这是目前业界最大的视觉模型,全面支持图像、红外、激光点云、光谱、雷达等多维度感知。在预测领域,盘古采用业界首创的triplet transformer统一预训练架构,将不同行业数据进行三元组编码,大幅提升跨行业泛化能力。
国产AI生态进入新阶段
华为盘古大模型5.5的发布,不仅是技术层面的突破,更代表着国产AI生态正在进入一个新的发展阶段。从CloudMatrix 384超节点到昇腾AI云服务,从DeepDiver开放域信息获取Agent到CloudRobo具身智能平台,华为正在构建一个完整的AI技术栈。
在AI大模型赛道进入"三国争霸"时代的背景下,盘古5.5凭借其"不作诗,只做事"的产业深耕理念,以及在工业、农业、科研、气象、能源等领域的丰富落地实践,正在成为中国AI产业智能化升级的核心动力。随着439款生成式AI完成备案,中国大模型的产业化与治理正在双轨加速,而盘古5.5无疑将成为这一进程中的重要推手。
网友留言(0 条)