openPangu 2.0 Flash 和 Pro 有什麼區別？

Flash 版 92B 總參數、6B 激活，6 月 30 日已上線 GitCode，單卡 Ascend 910B 可推理；Pro 版 505B 總參數、18B 激活，512K 上下文，權重計劃 7 月上線，適合超長文件與二次預訓練。

openPangu 2.0 和 DeepSeek V4 Pro 怎麼選？

程式碼與複雜推理 DeepSeek V4 Pro（約 200B 激活）更強；512K 上下文、國產化合規、Ascend 原生吞吐與全鏈路訓練程式碼開放，openPangu 2.0 幾乎無可替代。

Huawei openPangu 2.0 開源發布：505B MoE、512K 上下文、Ascend 全鏈路開源全解析

Q: 跨平台 Agent 開發是否必須租 Mac Mini？

純 Ascend/ModelArts 不必。若技術棧含 Xcode、Claude Code 或 OpenClaw 守護行程，Mac Mini M4 月租更穩。方案見 Mac Mini M4 租用定價，下單見雲端訂購頁。

01

讀懂 openPangu 2.0 前，先拆掉五個常見誤區

余承東在 HDC 2026（2026 年 6 月 12 日，東莞松山湖）正式發布 openPangu 2.0，6 月 30 日 Flash 版率先開源。多數討論仍停留在「又一個國產大模型」——以下盲區會直接影響您的部署與採購決策。

01
把開源等同於「只有權重」：業界常規只開放權重+推理；openPangu 2.0 計劃開放預訓練、後訓練程式碼與 Ascend 訓練算子，屬超大規模 MoE 中極為罕見的全鏈路開源。
02
忽視「無 NVIDIA」的歷史意義：DeepSeek、Qwen、Kimi、Llama 均在 NVIDIA 上訓練；openPangu 2.0 全程 Ascend 910B，是全球首個在非 NVIDIA 硬體完成前沿規模訓練並開源的模型。
03
用綜合能力榜否定 512K 價值：程式碼與複雜推理 DeepSeek V4 Pro 仍領先，但 512K 上下文是 openPangu 的差異化王牌——約等於 8 本長篇小說的文字量。
04
混淆 Flash 與 Pro 上線節奏：Flash（92B/6B 激活）已上線；Pro（505B/18B 激活）權重計劃 2026 年 7 月；預訓練/後訓練程式碼在2026 下半年分批發布。
05
只部署模型、不規劃宿主：Ascend 棧用 torch_npu，鴻蒙端側走 Embedded；若您的 Agent 還要跑 Xcode、Claude Code、OpenClaw，模型在 Ascend、工具鏈在 macOS——與多模型路由 Gateway同屬分層架構。

02

事件時間線、雙版本參數與 7 大開源元件

關鍵時間線

時間	事件
2026-06-12	HDC 2026 余承東主題演講正式發布 openPangu 2.0
2026-06-30	Flash 權重、基礎推理程式碼、訓推算子上線 GitCode
2026-07（規劃）	Pro 模型權重與推理程式碼上線
2026 下半年（規劃）	預訓練程式碼、後訓練程式碼、更多訓練算子陸續發布

Pro vs Flash 核心參數

指標	openPangu 2.0 Pro	openPangu 2.0 Flash
總參數量	505B	92B
激活參數量	18B	6B
稀疏比	~28:1	~15:1（Flash 版 DSA+SWA 可達極致稀疏）
上下文視窗	512K	512K
可用狀態	7 月規劃上線	6 月 30 日已上線

7 大開源元件（全鏈路開放）

元件	狀態
模型結構（架構定義）	已發布
模型權重（Flash）	2026-06-30 已發布
技術報告	隨權重同步
推理程式碼 + 訓推算子	2026-06-30 已發布
模型權重（Pro）	2026-07 規劃
預訓練程式碼	2026 下半年規劃
後訓練程式碼（SFT/RLHF）	2026 下半年規劃

前四項是業界開源常規操作；預訓練程式碼、後訓練程式碼與 Ascend 訓練算子在超大規模 MoE 中極為罕見——研究者與企業可真正復現從零訓練的前沿模型。

開源協議為 Huawei openPangu License：可商業使用、免版權費、非排他性；具體條款以 GitCode Ascend Tribe 儲存庫為準。

03

技術深度：MoE 架構、Ascend 訓練與開發者生態

架構創新

mHC（Multi-Head Combinatorial）路由：改進專家路由效率，降低 MoE 負載不均衡
Muon 優化器：微軟提出的二階動量方案，提升大規模訓練穩定性
ModAttn（Modular Attention）：模組化注意力，支撐 512K 超長上下文
DSA+SWA 超稀疏注意力（Flash 獨有）：實現極致稀疏比，6B 激活呼叫 92B 知識庫，推理算力接近稠密 6B

硬體與訓練突破

openPangu 2.0 是首個在非 NVIDIA 硬體上完成全規模訓練的前沿大模型，全程 Huawei Ascend 910B NPU，無 A100/H100。

單卡吞吐率：Ascend 上達業界主流開源模型的 2 倍
超節點訓練效率：提升約 +30%
512K 長序列訓練吞吐：提升約 +50%
訓推一致率：>99%（MoE 模型常見痛點）
推理延遲：優於同類模型約 1.2 倍
端側 Embedded：30B 入端模型，推理提速 50%，記憶體減 20%，支援麒麟晶片手機離線執行
Flash-Int8 量化版：W4A8，記憶體減 40%，精度損失 <10%

軟體棧與部署平台

CANN（類 CUDA）+ torch_npu（PyTorch 適配），import torch_npu 即可切換 Ascend 後端
雲端：華為雲 ModelArts API 直調
開源：GitCode Ascend Tribe 自部署權重
端側：鴻蒙原生整合；HarmonyOS 7 Agent 時代原生 AI 引擎

注意

獨立第三方 Benchmark 尚在評測中。下文能力矩陣部分基於架構推斷，非實測跑分；結果公布後本文將更新。

04

競品橫向對比：參數、能力與場景選型矩陣

主要參數對比

模型	總參數	激活參數	上下文	訓練硬體	開源程度
openPangu 2.0 Pro	505B	18B	512K	Ascend NPU	全鏈路（7 元件）
openPangu 2.0 Flash	92B	6B	512K	Ascend NPU	全鏈路（7 元件）
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	權重+推理
Qwen 3.7 Max	~400B+	可變	128K	NVIDIA	權重+推理+部分訓練
Kimi K2.7	1T	32B	256K	NVIDIA	權重+推理
Llama 4 405B	405B	—	128K	NVIDIA	權重+推理

能力矩陣（架構推斷，待 Benchmark 驗證）

能力維度	openPangu 2.0 Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
程式碼生成	★★★	★★★★★	★★★★	★★★★
複雜推理	★★★	★★★★★	★★★★★	★★★★
工具呼叫/Agent	★★★★	★★★★	★★★★	★★★★★
超長上下文	★★★★★	★★★	★★★	★★★★
推理效率	★★★★★	★★	★★	★★★★
自主可控	★★★★★	★	★	★
全鏈路開源	★★★★★	★★★	★★★	★★★

場景選型速查

場景	推薦	原因
程式碼生成 / 複雜推理	DeepSeek V4 Pro	~200B 激活，性能領先
Agent / 多工具協作	Kimi K2.7	MCP 生態完善
超長文件（>256K Token）	openPangu 2.0 Pro	512K 上下文首選
國產化 / 信創 / 無 NVIDIA	openPangu 2.0	唯一純國產硬體訓練的前沿模型
Ascend / 華為雲部署	openPangu 2.0	原生最佳化，吞吐 2×
端側 / 手機部署	openPangu Embedded	30B 入端，麒麟離線
低成本本地推理	openPangu 2.0 Flash	6B 激活，~96GB 可跑

05

六步 Runbook：ModelArts API 與 GitCode 自部署

硬體需求參考

版本	推薦硬體	最低配置	備註
Flash（6B 激活）	單卡 Ascend 910B	~96GB 統一記憶體	社群測試大記憶體系統可嘗試
Flash-Int8	單卡 Atlas A2	~48GB 記憶體	W4A8，精度損失 <10%
Pro（18B 激活）	4+ 卡 Ascend 910B	多卡叢集	7 月權重上線後驗證

六步落地指南

01
選路徑：無硬體優先 ModelArts API（註冊華為雲 → AI Gallery → 搜尋 openPangu 2.0 → 訂閱 Flash/Pro）；有 Ascend 叢集走 GitCode 自部署。
02
拉取儲存庫：造訪 gitcode.com/org/ascend-tribe，克隆 openPangu-2.0-Flash、openPangu-2.0-Infer、openPangu-2.0-Op（算子）。
03
設定 CANN + torch_npu：安裝 Ascend 驅動與 CANN，PyTorch 專案增加 import torch_npu 切換後端。
04
Flash 單卡推理：在 910B 上執行推理腳本，--context_length 512000 驗證長上下文（按記憶體酌情下調）。
05
量化或分散式：記憶體緊張用 openPangu-2.0-Flash-Int8；Pro 版用多卡 distributed_inference.py（7 月權重後）。
06
領域微調（可選）：LoRA 範例 finetune.py --method lora --lora_rank 16；預訓練程式碼下半年開源後可做二次預訓練。

API 呼叫範例（ModelArts）

bash

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "你好，請介紹一下你自己"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

Flash 單卡推理範例

bash

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

可引用硬核數據

參數規模：Pro 505B/18B，Flash 92B/6B，雙版本統一 512K 上下文
Ascend 吞吐：單卡達主流開源模型 2×；512K 訓練吞吐 +50%
訓推一致：MoE 訓推分布一致率 >99%
量化收益：Flash-Int8 記憶體 -40%，精度損失 <10%
鴻蒙 Agent：智能體框架 2.0 複雜任務成功率 >90%（依托 openPangu 2.0）
上下文類比：512K ≈ 8 本長篇小說的文字量或完整大型程式碼庫單次 prompt

06

戰略意義：信創、HarmonyOS Agent 與跨平台宿主選擇

在美國對華限制 A100/H100 出口管制的背景下，openPangu 2.0 證明沒有 NVIDIA 也能訓練前沿 MoE——這不只是技術成績，更是對「CUDA 壟斷」敘事的有力回應。余承東在 HDC 2026 的表態：「在我余生的字典裡，沒有第二，只有第一。」

全鏈路開源讓學術研究可復現訓練、企業可做垂直域二次預訓練、開發者可降低 Ascend 算力門檻。HarmonyOS 7 全面進入 Agent 時代，openPangu 2.0 是原生 AI 引擎；端側 30B 模型可在麒麟手機離線執行。

openPangu 2.0 在綜合能力上未必超越 DeepSeek V4 Pro，但在 512K 上下文、國產化、Ascend 原生、全鏈路開源、端側適配五維幾乎無可替代。若您的技術棧同時覆蓋鴻蒙 Agent + iOS/Xcode CI + OpenClaw 多模型路由，Ascend 跑推理、macOS 跑工具鏈是現實分工——筆電合蓋會丟半夜任務；自購 GPU 伺服器則面臨硬體採購、頻寬與 7×24 維運負擔，Linux VPS 又缺 Metal 與 Keychain、也缺原生 Xcode 建置鏈。VpsMesh Mac Mini M4 雲端租用把 7×24 uptime 與原生 Apple 工具鏈打包為月租 OpEx。方案見 Mac Mini M4 租用定價，部署見雲端幫助中心。

免責聲明：部分 benchmark 為架構推斷性評估，獨立第三方結果公布後將持續更新。發布日期：2026 年 7 月 1 日。

常見問題

讀者最常問的三個問題

Flash（92B/6B 激活）6 月 30 日已上線，單卡 910B 可推理，適合高並發 API；Pro（505B/18B 激活）7 月上線，512K 長文件與二次預訓練首選。權重見 GitCode Ascend Tribe。

程式碼與複雜推理選 DeepSeek V4 Pro（~200B 激活）；512K 上下文、信創合規、Ascend 2× 吞吐、全鏈路訓練程式碼選 openPangu 2.0。多模型並存可參考 OpenClaw 多模型路由。

純 Ascend/ModelArts 不必。若技術棧含 Xcode、Claude Code 或 OpenClaw 守護行程，Mac Mini M4 月租更穩。方案見 Mac Mini M4 租用定價，下單見雲端訂購頁。