HDC 2026 時間線 · 7 大元件 · 無 NVIDIA 訓練 · 競品矩陣 · 六步部署 Runbook
2026 年 6 月 30 日,Huawei 兌現 HDC 2026 承諾——openPangu-2.0-Flash 權重、推理程式碼與訓推算子正式上線 GitCode。若您關注開源盤古 2.0、Ascend 大模型或信創合規選型,本文基於官方發布與調研材料,交付 HDC 時間線、Pro/Flash 雙版本參數、7 大開源元件路線圖、mHC/ModAttn/DSA+SWA 架構解讀、全球首個無 NVIDIA 前沿訓練事實、與 DeepSeek/Qwen/Kimi 競品矩陣、ModelArts API + GitCode 自部署六步 Runbook、HarmonyOS Agent 戰略意義與 FAQ,並說明跨平台 Agent 開發時為何 Mac Mini M4 月租仍是 iOS 側更穩的宿主。
余承東在 HDC 2026(2026 年 6 月 12 日,東莞松山湖)正式發布 openPangu 2.0,6 月 30 日 Flash 版率先開源。多數討論仍停留在「又一個國產大模型」——以下盲區會直接影響您的部署與採購決策。
把開源等同於「只有權重」:業界常規只開放權重+推理;openPangu 2.0 計劃開放預訓練、後訓練程式碼與 Ascend 訓練算子,屬超大規模 MoE 中極為罕見的全鏈路開源。
忽視「無 NVIDIA」的歷史意義:DeepSeek、Qwen、Kimi、Llama 均在 NVIDIA 上訓練;openPangu 2.0 全程 Ascend 910B,是全球首個在非 NVIDIA 硬體完成前沿規模訓練並開源的模型。
用綜合能力榜否定 512K 價值:程式碼與複雜推理 DeepSeek V4 Pro 仍領先,但 512K 上下文是 openPangu 的差異化王牌——約等於 8 本長篇小說的文字量。
混淆 Flash 與 Pro 上線節奏:Flash(92B/6B 激活)已上線;Pro(505B/18B 激活)權重計劃 2026 年 7 月;預訓練/後訓練程式碼在2026 下半年分批發布。
只部署模型、不規劃宿主:Ascend 棧用 torch_npu,鴻蒙端側走 Embedded;若您的 Agent 還要跑 Xcode、Claude Code、OpenClaw,模型在 Ascend、工具鏈在 macOS——與多模型路由 Gateway同屬分層架構。
| 時間 | 事件 |
|---|---|
| 2026-06-12 | HDC 2026 余承東主題演講正式發布 openPangu 2.0 |
| 2026-06-30 | Flash 權重、基礎推理程式碼、訓推算子上線 GitCode |
| 2026-07(規劃) | Pro 模型權重與推理程式碼上線 |
| 2026 下半年(規劃) | 預訓練程式碼、後訓練程式碼、更多訓練算子陸續發布 |
| 指標 | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| 總參數量 | 505B | 92B |
| 激活參數量 | 18B | 6B |
| 稀疏比 | ~28:1 | ~15:1(Flash 版 DSA+SWA 可達極致稀疏) |
| 上下文視窗 | 512K | 512K |
| 可用狀態 | 7 月規劃上線 | 6 月 30 日已上線 |
| 元件 | 狀態 |
|---|---|
| 模型結構(架構定義) | 已發布 |
| 模型權重(Flash) | 2026-06-30 已發布 |
| 技術報告 | 隨權重同步 |
| 推理程式碼 + 訓推算子 | 2026-06-30 已發布 |
| 模型權重(Pro) | 2026-07 規劃 |
| 預訓練程式碼 | 2026 下半年規劃 |
| 後訓練程式碼(SFT/RLHF) | 2026 下半年規劃 |
前四項是業界開源常規操作;預訓練程式碼、後訓練程式碼與 Ascend 訓練算子在超大規模 MoE 中極為罕見——研究者與企業可真正復現從零訓練的前沿模型。
開源協議為 Huawei openPangu License:可商業使用、免版權費、非排他性;具體條款以 GitCode Ascend Tribe 儲存庫為準。
openPangu 2.0 是首個在非 NVIDIA 硬體上完成全規模訓練的前沿大模型,全程 Huawei Ascend 910B NPU,無 A100/H100。
import torch_npu 即可切換 Ascend 後端獨立第三方 Benchmark 尚在評測中。下文能力矩陣部分基於架構推斷,非實測跑分;結果公布後本文將更新。
| 模型 | 總參數 | 激活參數 | 上下文 | 訓練硬體 | 開源程度 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | 全鏈路(7 元件) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | 全鏈路(7 元件) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | 權重+推理 |
| Qwen 3.7 Max | ~400B+ | 可變 | 128K | NVIDIA | 權重+推理+部分訓練 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 權重+推理 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 權重+推理 |
| 能力維度 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| 程式碼生成 | ★★★ | ★★★★★ | ★★★★ | ★★★★ |
| 複雜推理 | ★★★ | ★★★★★ | ★★★★★ | ★★★★ |
| 工具呼叫/Agent | ★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| 超長上下文 | ★★★★★ | ★★★ | ★★★ | ★★★★ |
| 推理效率 | ★★★★★ | ★★ | ★★ | ★★★★ |
| 自主可控 | ★★★★★ | ★ | ★ | ★ |
| 全鏈路開源 | ★★★★★ | ★★★ | ★★★ | ★★★ |
| 場景 | 推薦 | 原因 |
|---|---|---|
| 程式碼生成 / 複雜推理 | DeepSeek V4 Pro | ~200B 激活,性能領先 |
| Agent / 多工具協作 | Kimi K2.7 | MCP 生態完善 |
| 超長文件(>256K Token) | openPangu 2.0 Pro | 512K 上下文首選 |
| 國產化 / 信創 / 無 NVIDIA | openPangu 2.0 | 唯一純國產硬體訓練的前沿模型 |
| Ascend / 華為雲部署 | openPangu 2.0 | 原生最佳化,吞吐 2× |
| 端側 / 手機部署 | openPangu Embedded | 30B 入端,麒麟離線 |
| 低成本本地推理 | openPangu 2.0 Flash | 6B 激活,~96GB 可跑 |
| 版本 | 推薦硬體 | 最低配置 | 備註 |
|---|---|---|---|
| Flash(6B 激活) | 單卡 Ascend 910B | ~96GB 統一記憶體 | 社群測試大記憶體系統可嘗試 |
| Flash-Int8 | 單卡 Atlas A2 | ~48GB 記憶體 | W4A8,精度損失 <10% |
| Pro(18B 激活) | 4+ 卡 Ascend 910B | 多卡叢集 | 7 月權重上線後驗證 |
選路徑:無硬體優先 ModelArts API(註冊華為雲 → AI Gallery → 搜尋 openPangu 2.0 → 訂閱 Flash/Pro);有 Ascend 叢集走 GitCode 自部署。
拉取儲存庫:造訪 gitcode.com/org/ascend-tribe,克隆 openPangu-2.0-Flash、openPangu-2.0-Infer、openPangu-2.0-Op(算子)。
設定 CANN + torch_npu:安裝 Ascend 驅動與 CANN,PyTorch 專案增加 import torch_npu 切換後端。
Flash 單卡推理:在 910B 上執行推理腳本,--context_length 512000 驗證長上下文(按記憶體酌情下調)。
量化或分散式:記憶體緊張用 openPangu-2.0-Flash-Int8;Pro 版用多卡 distributed_inference.py(7 月權重後)。
領域微調(可選):LoRA 範例 finetune.py --method lora --lora_rank 16;預訓練程式碼下半年開源後可做二次預訓練。
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "你好,請介紹一下你自己"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
在美國對華限制 A100/H100 出口管制的背景下,openPangu 2.0 證明沒有 NVIDIA 也能訓練前沿 MoE——這不只是技術成績,更是對「CUDA 壟斷」敘事的有力回應。余承東在 HDC 2026 的表態:「在我余生的字典裡,沒有第二,只有第一。」
全鏈路開源讓學術研究可復現訓練、企業可做垂直域二次預訓練、開發者可降低 Ascend 算力門檻。HarmonyOS 7 全面進入 Agent 時代,openPangu 2.0 是原生 AI 引擎;端側 30B 模型可在麒麟手機離線執行。
openPangu 2.0 在綜合能力上未必超越 DeepSeek V4 Pro,但在 512K 上下文、國產化、Ascend 原生、全鏈路開源、端側適配五維幾乎無可替代。若您的技術棧同時覆蓋鴻蒙 Agent + iOS/Xcode CI + OpenClaw 多模型路由,Ascend 跑推理、macOS 跑工具鏈是現實分工——筆電合蓋會丟半夜任務;自購 GPU 伺服器則面臨硬體採購、頻寬與 7×24 維運負擔,Linux VPS 又缺 Metal 與 Keychain、也缺原生 Xcode 建置鏈。VpsMesh Mac Mini M4 雲端租用把 7×24 uptime 與原生 Apple 工具鏈打包為月租 OpEx。方案見 Mac Mini M4 租用定價,部署見 雲端幫助中心。
免責聲明:部分 benchmark 為架構推斷性評估,獨立第三方結果公布後將持續更新。發布日期:2026 年 7 月 1 日。
Flash(92B/6B 激活)6 月 30 日已上線,單卡 910B 可推理,適合高並發 API;Pro(505B/18B 激活)7 月上線,512K 長文件與二次預訓練首選。權重見 GitCode Ascend Tribe。
程式碼與複雜推理選 DeepSeek V4 Pro(~200B 激活);512K 上下文、信創合規、Ascend 2× 吞吐、全鏈路訓練程式碼選 openPangu 2.0。多模型並存可參考 OpenClaw 多模型路由。
純 Ascend/ModelArts 不必。若技術棧含 Xcode、Claude Code 或 OpenClaw 守護行程,Mac Mini M4 月租更穩。方案見 Mac Mini M4 租用定價,下單見 雲端訂購頁。