HDC 2026 时间线 · 7 大组件 · 无英伟达训练 · 竞品矩阵 · 六步部署 Runbook
2026 年 6 月 30 日,华为兑现 HDC 2026 承诺——openPangu-2.0-Flash 权重、推理代码与训推算子正式上线 GitCode。若你关注开源盘古 2.0、昇腾大模型或信创合规选型,本文基于官方发布与调研材料,交付 HDC 时间线、Pro/Flash 双版本参数、7 大开源组件路线图、mHC/ModAttn/DSA+SWA 架构解读、全球首个无 NVIDIA 前沿训练事实、与 DeepSeek/Qwen/Kimi 竞品矩阵、ModelArts API + GitCode 自部署六步 Runbook、HarmonyOS Agent 战略意义与 FAQ,并说明跨平台 Agent 开发时为何 Mac Mini M4 月租仍是 iOS 侧更稳的宿主。
余承东在 HDC 2026(2026 年 6 月 12 日,东莞松山湖)正式发布 openPangu 2.0,6 月 30 日 Flash 版率先开源。多数讨论仍停留在「又一个国产大模型」——以下盲区会直接影响你的部署与采购决策。
把开源等同于「只有权重」:业界常规只开放权重+推理;openPangu 2.0 计划开放预训练、后训练代码与昇腾训练算子,属超大规模 MoE 中极为罕见的全链路开源。
忽视「无英伟达」的历史意义:DeepSeek、Qwen、Kimi、Llama 均在 NVIDIA 上训练;openPangu 2.0 全程 昇腾 910B,是全球首个在非英伟达硬件完成前沿规模训练并开源的模型。
用综合能力榜否定 512K 价值:代码与复杂推理 DeepSeek V4 Pro 仍领先,但 512K 上下文是 openPangu 的差异化王牌——约等于 8 本《三体》第一部文字量。
混淆 Flash 与 Pro 上线节奏:Flash(92B/6B 激活)已上线;Pro(505B/18B 激活)权重计划 2026 年 7 月;预训练/后训练代码在2026 下半年分批发布。
只部署模型、不规划宿主:昇腾栈用 torch_npu,鸿蒙端侧走 Embedded;若你的 Agent 还要跑 Xcode、Claude Code、OpenClaw,模型在昇腾、工具链在 macOS——与多模型路由 Gateway同属分层架构。
| 时间 | 事件 |
|---|---|
| 2026-06-12 | HDC 2026 余承东主题演讲正式发布 openPangu 2.0 |
| 2026-06-30 | Flash 权重、基础推理代码、训推算子上线 GitCode |
| 2026-07(规划) | Pro 模型权重与推理代码上线 |
| 2026 下半年(规划) | 预训练代码、后训练代码、更多训练算子陆续发布 |
| 指标 | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| 总参数量 | 505B | 92B |
| 激活参数量 | 18B | 6B |
| 稀疏比 | ~28:1 | ~15:1(Flash 版 DSA+SWA 可达极致稀疏) |
| 上下文窗口 | 512K | 512K |
| 可用状态 | 7 月规划上线 | 6 月 30 日已上线 |
| 组件 | 状态 |
|---|---|
| 模型结构(架构定义) | ✅ 已发布 |
| 模型权重(Flash) | ✅ 2026-06-30 |
| 技术报告 | ✅ 随权重同步 |
| 推理代码 + 训推算子 | ✅ 2026-06-30 |
| 模型权重(Pro) | 🔜 2026-07 |
| 预训练代码 | 📋 2026 下半年 |
| 后训练代码(SFT/RLHF) | 📋 2026 下半年 |
前四项是业界开源常规操作;预训练代码、后训练代码与昇腾训练算子在超大规模 MoE 中极为罕见——研究者与企业可真正复现从零训练的前沿模型。
开源协议为华为 openPangu License:可商业使用、免版权费、非排他性;具体条款以 GitCode Ascend Tribe 仓库为准。
openPangu 2.0 是首个在非英伟达硬件上完成全规模训练的前沿大模型,全程华为 昇腾 910B NPU,无 A100/H100。
import torch_npu 即可切换昇腾后端独立第三方 Benchmark 尚在评测中。下文能力矩阵部分基于架构推断,非实测跑分;结果公布后本文将更新。
| 模型 | 总参数 | 激活参数 | 上下文 | 训练硬件 | 开源程度 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | 昇腾 NPU | 全链路(7 组件) |
| openPangu 2.0 Flash | 92B | 6B | 512K | 昇腾 NPU | 全链路(7 组件) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | 权重+推理 |
| Qwen 3.7 Max | ~400B+ | varies | 128K | NVIDIA | 权重+推理+部分训练 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 权重+推理 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 权重+推理 |
| 能力维度 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| 代码生成 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 复杂推理 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 工具调用/Agent | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 超长上下文 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 推理效率 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
| 自主可控 | ⭐⭐⭐⭐⭐ | ⭐ | ⭐ | ⭐ |
| 全链路开源 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
| 场景 | 推荐 | 原因 |
|---|---|---|
| 代码生成 / 复杂推理 | DeepSeek V4 Pro | ~200B 激活,性能领先 |
| Agent / 多工具协作 | Kimi K2.7 | MCP 生态完善 |
| 超长文档(>256K Token) | openPangu 2.0 Pro | 512K 上下文首选 |
| 国产化 / 信创 / 无 NVIDIA | openPangu 2.0 | 唯一纯国产硬件训练的前沿模型 |
| 昇腾 / 华为云部署 | openPangu 2.0 | 原生优化,吞吐 2× |
| 端侧 / 手机部署 | openPangu Embedded | 30B 入端,麒麟离线 |
| 低成本本地推理 | openPangu 2.0 Flash | 6B 激活,~96GB 可跑 |
| 版本 | 推荐硬件 | 最低配置 | 备注 |
|---|---|---|---|
| Flash(6B 激活) | 单卡昇腾 910B | ~96GB 统一内存 | 社区测试大内存系统可尝试 |
| Flash-Int8 | 单卡 Atlas A2 | ~48GB 显存 | W4A8,精度损失 <10% |
| Pro(18B 激活) | 4+ 卡昇腾 910B | 多卡集群 | 7 月权重上线后验证 |
选路径:无硬件优先 ModelArts API(注册华为云 → AI Gallery → 搜索 openPangu 2.0 → 订阅 Flash/Pro);有昇腾集群走 GitCode 自部署。
拉取仓库:访问 gitcode.com/org/ascend-tribe,克隆 openPangu-2.0-Flash、openPangu-2.0-Infer、openPangu-2.0-Op(算子)。
配置 CANN + torch_npu:安装昇腾驱动与 CANN,PyTorch 项目增加 import torch_npu 切换后端。
Flash 单卡推理:在 910B 上执行推理脚本,--context_length 512000 验证长上下文(按显存酌情下调)。
量化或分布式:显存紧张用 openPangu-2.0-Flash-Int8;Pro 版用多卡 distributed_inference.py(7 月权重后)。
领域微调(可选):LoRA 示例 finetune.py --method lora --lora_rank 16;预训练代码下半年开源后可做二次预训练。
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "你好,请介绍一下你自己"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
在美国对华限制 A100/H100 出口管制的背景下,openPangu 2.0 证明没有英伟达也能训练前沿 MoE——这不只是技术成绩,更是对「CUDA 垄断」叙事的有力回应。余承东在 HDC 2026 的表态:「在我余生的字典里,没有第二,只有第一。」
全链路开源让学术研究可复现训练、企业可做垂直域二次预训练、开发者可降低昇腾算力门槛。HarmonyOS 7 全面进入 Agent 时代,openPangu 2.0 是原生 AI 引擎;端侧 30B 模型可在麒麟手机离线运行。
openPangu 2.0 在综合能力上未必超越 DeepSeek V4 Pro,但在 512K 上下文、国产化、昇腾原生、全链路开源、端侧适配五维几乎无可替代。若你的栈同时覆盖鸿蒙 Agent + iOS/Xcode CI + OpenClaw 多模型路由,昇腾跑推理、macOS 跑工具链是现实分工——笔记本合盖会丢半夜任务,Linux VPS 缺 Metal 与 Keychain。VpsMesh Mac Mini M4 云端租赁把 7×24 uptime 与原生 Apple 工具链打包为月租 OpEx。套餐见 Mac Mini M4 租赁价格,部署见 帮助中心。
免责声明:部分 benchmark 为架构推断性评估,独立第三方结果公布后将持续更新。发布日期:2026 年 7 月 1 日。
Flash(92B/6B 激活)6 月 30 日已上线,单卡 910B 可推理,适合高并发 API;Pro(505B/18B 激活)7 月上线,512K 长文档与二次预训练首选。权重见 GitCode Ascend Tribe。
代码与复杂推理选 DeepSeek V4 Pro(~200B 激活);512K 上下文、信创合规、昇腾 2× 吞吐、全链路训练代码选 openPangu 2.0。多模型并存可参考 OpenClaw 多模型路由。
纯昇腾/ModelArts 不必。若栈含 Xcode、Claude Code 或 OpenClaw 守护进程,Mac Mini M4 月租更稳。套餐见 Mac Mini M4 租赁价格,下单见 订购页。