Huawei openPangu 2.0 open source: MoE 505B, контекст 512K, полный разбор Ascend

Таймлайн HDC 2026 · 7 компонентов · обучение без NVIDIA · матрица конкурентов · runbook на 6 шагов

Huawei openPangu 2.0: open-source MoE на Ascend

30 июня 2026 — Huawei закрыл обещание HDC 2026: веса openPangu-2.0-Flash, inference-код и train/infer операторы лежат на GitCode. Если вы копаете суверенный LLM или деплой на Ascend, здесь весь стек: таймлайн HDC, спеки Pro/Flash, roadmap 7 open-source компонентов, архитектура mHC/ModAttn/DSA+SWA, факт первого frontier MoE без NVIDIA в training loop, матрица vs DeepSeek/Qwen/Kimi, 6-шаговый runbook (ModelArts API + GitCode self-host), HarmonyOS Agent, FAQ — и зачем для cross-platform агентов всё ещё нужен арендованный Mac Mini M4.

01

Пять мифов, которые ломают ваш deploy до первого curl

Richard Yu анонсировал openPangu 2.0 на HDC 2026 (12 июня 2026, Dongguan Songshan Lake); Flash ушёл в open source 30 июня. Большинство обсуждений застряло на «ещё один китайский LLM» — ниже пункты, которые напрямую бьют по закупке и инфраструктуре.

  1. 01

    Open source = только weights: индустриальный минимум — weights + inference. openPangu 2.0 тащит pretrain/posttrain код и Ascend training ops — для MoE такого масштаба это редкость.

  2. 02

    Игнор «no NVIDIA»: DeepSeek, Qwen, Kimi, Llama учились на NVIDIA. openPangu 2.0 — end-to-end на Ascend 910B, первый frontier-scale open model без NVIDIA в training path.

  3. 03

    512K как маркeting fluff: DeepSeek V4 Pro топит code/reasoning, но 512K context — killer feature openPangu; это ~8 длинных романов в одном prompt.

  4. 04

    Путаница Flash vs Pro: Flash (92B/6B active) уже live; Pro (505B/18B active) weights — июль 2026; pre/posttrain code — H2 2026.

  5. 05

    Модель без host-плана: Ascend = torch_npu, HarmonyOS edge = Embedded. Agent со Xcode, Claude Code, OpenClaw — split stack, см. multi-model routing.

02

Таймлайн, спеки и 7 open-source компонентов

Ключевые даты

ДатаСобытие
2026-06-12HDC 2026: официальный анонс openPangu 2.0
2026-06-30Flash weights, base inference, ops на GitCode
2026-07 (plan)Pro weights и inference code
H2 2026 (plan)Pretrain code, posttrain code, доп. ops

Pro vs Flash — core specs

МетрикаopenPangu 2.0 ProopenPangu 2.0 Flash
Всего параметров505B92B
Active params18B6B
Sparse ratio~28:1~15:1 (DSA+SWA: ultra-sparse)
Context window512K512K
СтатусИюль 2026 (plan)Live с 30.06.

7 компонентов full-stack open source

КомпонентСтатус
Model architectureReleased
Weights (Flash)Released 2026-06-30
Technical reportС weights
Inference code + train/infer opsReleased 2026-06-30
Weights (Pro)Plan: июль 2026
Pretrain codePlan: H2 2026
Posttrain code (SFT/RLHF)Plan: H2 2026

Первые четыре — industry standard. Pretrain, posttrain и Ascend ops на 505B MoE — это реальный zero-to-hero reproduce, не cosmetic open weights.

Лицензия openPangu License: commercial OK, royalty-free, non-exclusive. Детали: GitCode Ascend Tribe.

03

MoE-архитектура, Ascend training, dev stack

Architecture hacks

  • mHC (Multi-Head Combinatorial): smarter expert routing, меньше MoE load imbalance
  • Muon optimizer: second-order momentum от Microsoft — stable large-scale train
  • ModAttn (Modular Attention): modular attention под 512K long context
  • DSA+SWA (Flash only): ultra-sparse attn; 6B active дергает 92B knowledge base, compute ~ dense 6B

Hardware numbers (официальный pitch)

openPangu 2.0 — первый frontier LLM full-scale без NVIDIA hardware, только Ascend 910B NPU, zero A100/H100 в loop.

  • Single-card throughput: ~ vs mainstream OSS на Ascend
  • Super-node train efficiency: ~+30 %
  • 512K sequence train: ~+50 % throughput
  • Train-infer consistency: >99 % (MoE pain point)
  • Inference latency: ~1.2× лучше peers
  • Embedded edge: 30B on-device, +50 % speed, −20 % RAM, Kirin offline
  • Flash-Int8: W4A8, −40 % memory, <10 % accuracy drop

Software stack

  • CANN (CUDA-like) + torch_npu; import torch_npu → Ascend backend
  • Cloud: Huawei Cloud ModelArts API
  • OSS: GitCode Ascend Tribe self-host
  • Edge: HarmonyOS native; HarmonyOS 7 Agent engine
Важно

Independent third-party benchmarks ещё крутятся. Матрица ниже — architecture inference, не published scores. Обновим после релиза bench.

04

Конкуренты: params, capabilities, use cases

Param matrix

МодельTotalActiveContextTrain HWOpen source
openPangu 2.0 Pro505B18B512KAscend NPUFull stack (7)
openPangu 2.0 Flash92B6B512KAscend NPUFull stack (7)
DeepSeek V4 Pro1.6T~200B128KNVIDIAWeights + infer
Qwen 3.7 Max~400B+varies128KNVIDIAWeights + infer + partial train
Kimi K2.71T32B256KNVIDIAWeights + infer
Llama 4 405B405B128KNVIDIAWeights + infer

Capability matrix (architecture guess, шкала 1–5)

DimensionopenPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
Code gen3544
Complex reasoning3554
Tool use / Agent4445
Ultra-long context5334
Infer efficiency5224
Sovereign HW5111
Full-stack OSS5333

Scenario picker

СценарийPickПочему
Code / hard reasoningDeepSeek V4 Pro~200B active, bench leader
Agent / multi-toolKimi K2.7MCP ecosystem
Docs >256K tokensopenPangu 2.0 ProNative 512K
Sovereign / no NVIDIAopenPangu 2.0Единственный Ascend-trained frontier MoE
Ascend / Huawei CloudopenPangu 2.0Native tuning, 2× throughput
Edge / phoneopenPangu Embedded30B on-device, Kirin offline
Cheap local inferopenPangu 2.0 Flash6B active, ~96 GB RAM
05

Runbook на 6 шагов: ModelArts API + GitCode self-host

Hardware cheat sheet

ВариантRecommendedMinimumNotes
Flash (6B active)1× Ascend 910B~96 GB unified memoryCommunity tests на fat RAM boxes
Flash-Int81× Atlas A2~48 GBW4A8, <10 % loss
Pro (18B active)4+ Ascend 910BMulti-card clusterValidate после July weights

6 steps to prod

  1. 01

    Pick path: no HW → ModelArts API (Huawei Cloud → AI Gallery → openPangu 2.0 → subscribe Flash/Pro); есть Ascend cluster → GitCode.

  2. 02

    Clone repos: gitcode.com/org/ascend-tribeopenPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op.

  3. 03

    CANN + torch_npu: Ascend drivers + CANN; в PyTorch проект добавить import torch_npu.

  4. 04

    Flash single-card infer: inference script на 910B, --context_length 512000 (downscale по VRAM).

  5. 05

    Quant or distributed: tight VRAM → openPangu-2.0-Flash-Int8; Pro → distributed_inference.py (post-July).

  6. 06

    Finetune (opt): LoRA finetune.py --method lora --lora_rank 16; second pretrain после H2 code drop.

ModelArts API (curl)

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Кратко представьтесь."}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

Flash single-card infer (bash)

bash
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

Hard numbers для цитирования

  • Scale: Pro 505B/18B, Flash 92B/6B, оба 512K
  • Ascend: single-card ; 512K train +50 %
  • Train-infer: MoE consistency >99 %
  • Int8: memory −40 %, loss <10 %
  • HarmonyOS Agent: framework 2.0 success rate >90 %
  • 512K analogy: 8 fat novels или monorepo целиком в одном prompt
06

Strategy: суверенитет, HarmonyOS Agent, cross-platform hosts

При US export controls на A100/H100 openPangu 2.0 доказывает: frontier MoE без NVIDIA — не теория, а shipped artifact. Это удар по narrative «CUDA monopoly».

Full-stack OSS = academic reproduce, vertical second pretrain, lower Ascend entry barrier. HarmonyOS 7 ставит openPangu 2.0 как native Agent engine; 30B Embedded крутится offline на Kirin phones.

openPangu 2.0 может проигрывать DeepSeek V4 Pro в general bench, но по 512K, sovereign HW, Ascend-native perf, full OSS, edge — почти без замены. Stack HarmonyOS Agent + iOS/Xcode CI + OpenClaw routing = infer на Ascend, toolchain на macOS. Laptop sleep убивает night jobs; Linux VPS без Metal/Keychain. VpsMesh Mac Mini M4 cloud rent = 7×24 + native Apple toolchain как OpEx. Цены аренды Mac Mini M4, центр помощи, оформить заказ.

Disclaimer: часть bench matrix — architecture inference; обновим после independent results. Дата публикации: 1 июля 2026.

FAQ

Частые вопросы

Flash (92B/6B active) live с 30.06., single 910B infer, API load. Pro (505B/18B active) — июль, ultra-long docs + second pretrain. Weights: GitCode Ascend Tribe.

Code/reasoning → DeepSeek V4 Pro (~200B active). 512K, sovereign Ascend, 2× throughput, full training stack → openPangu 2.0. Multi-model: OpenClaw routing.

Pure Ascend/ModelArts — нет. Со Xcode, Claude Code или OpenClaw daemonMac Mini M4 rent стабильнее. Цены, заказ.