Чем отличаются openPangu 2.0 Flash и Pro?

Flash: 92B всего, 6B активных, на GitCode с 30 июня, инференс на одной Ascend 910B. Pro: 505B всего, 18B активных, контекст 512K, веса в июле — для ultra-long доков и второго pretrain.

openPangu 2.0 или DeepSeek V4 Pro — что выбрать?

Код и сложный reasoning: DeepSeek V4 Pro (~200B активных). 512K контекст, суверенный Ascend, 2× throughput и полный training stack: openPangu 2.0.

Как быстрее всего потестить openPangu 2.0?

Регистрация Huawei Cloud, ModelArts AI Gallery, подписка Flash/Pro, Chat Completions API; self-host через GitCode Ascend Tribe.

Huawei openPangu 2.0 open source: MoE 505B, контекст 512K, полный разбор Ascend

01

Пять мифов, которые ломают ваш deploy до первого curl

Richard Yu анонсировал openPangu 2.0 на HDC 2026 (12 июня 2026, Dongguan Songshan Lake); Flash ушёл в open source 30 июня. Большинство обсуждений застряло на «ещё один китайский LLM» — ниже пункты, которые напрямую бьют по закупке и инфраструктуре.

01
Open source = только weights: индустриальный минимум — weights + inference. openPangu 2.0 тащит pretrain/posttrain код и Ascend training ops — для MoE такого масштаба это редкость.
02
Игнор «no NVIDIA»: DeepSeek, Qwen, Kimi, Llama учились на NVIDIA. openPangu 2.0 — end-to-end на Ascend 910B, первый frontier-scale open model без NVIDIA в training path.
03
512K как маркeting fluff: DeepSeek V4 Pro топит code/reasoning, но 512K context — killer feature openPangu; это ~8 длинных романов в одном prompt.
04
Путаница Flash vs Pro: Flash (92B/6B active) уже live; Pro (505B/18B active) weights — июль 2026; pre/posttrain code — H2 2026.
05
Модель без host-плана: Ascend = torch_npu, HarmonyOS edge = Embedded. Agent со Xcode, Claude Code, OpenClaw — split stack, см. multi-model routing.

02

Таймлайн, спеки и 7 open-source компонентов

Ключевые даты

Дата	Событие
2026-06-12	HDC 2026: официальный анонс openPangu 2.0
2026-06-30	Flash weights, base inference, ops на GitCode
2026-07 (plan)	Pro weights и inference code
H2 2026 (plan)	Pretrain code, posttrain code, доп. ops

Pro vs Flash — core specs

Метрика	openPangu 2.0 Pro	openPangu 2.0 Flash
Всего параметров	505B	92B
Active params	18B	6B
Sparse ratio	~28:1	~15:1 (DSA+SWA: ultra-sparse)
Context window	512K	512K
Статус	Июль 2026 (plan)	Live с 30.06.

7 компонентов full-stack open source

Компонент	Статус
Model architecture	Released
Weights (Flash)	Released 2026-06-30
Technical report	С weights
Inference code + train/infer ops	Released 2026-06-30
Weights (Pro)	Plan: июль 2026
Pretrain code	Plan: H2 2026
Posttrain code (SFT/RLHF)	Plan: H2 2026

Первые четыре — industry standard. Pretrain, posttrain и Ascend ops на 505B MoE — это реальный zero-to-hero reproduce, не cosmetic open weights.

Лицензия openPangu License: commercial OK, royalty-free, non-exclusive. Детали: GitCode Ascend Tribe.

03

MoE-архитектура, Ascend training, dev stack

Architecture hacks

mHC (Multi-Head Combinatorial): smarter expert routing, меньше MoE load imbalance
Muon optimizer: second-order momentum от Microsoft — stable large-scale train
ModAttn (Modular Attention): modular attention под 512K long context
DSA+SWA (Flash only): ultra-sparse attn; 6B active дергает 92B knowledge base, compute ~ dense 6B

Hardware numbers (официальный pitch)

openPangu 2.0 — первый frontier LLM full-scale без NVIDIA hardware, только Ascend 910B NPU, zero A100/H100 в loop.

Single-card throughput: ~2× vs mainstream OSS на Ascend
Super-node train efficiency: ~+30 %
512K sequence train: ~+50 % throughput
Train-infer consistency: >99 % (MoE pain point)
Inference latency: ~1.2× лучше peers
Embedded edge: 30B on-device, +50 % speed, −20 % RAM, Kirin offline
Flash-Int8: W4A8, −40 % memory, <10 % accuracy drop

Software stack

CANN (CUDA-like) + torch_npu; import torch_npu → Ascend backend
Cloud: Huawei Cloud ModelArts API
OSS: GitCode Ascend Tribe self-host
Edge: HarmonyOS native; HarmonyOS 7 Agent engine

Важно

Independent third-party benchmarks ещё крутятся. Матрица ниже — architecture inference, не published scores. Обновим после релиза bench.

04

Конкуренты: params, capabilities, use cases

Param matrix

Модель	Total	Active	Context	Train HW	Open source
openPangu 2.0 Pro	505B	18B	512K	Ascend NPU	Full stack (7)
openPangu 2.0 Flash	92B	6B	512K	Ascend NPU	Full stack (7)
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	Weights + infer
Qwen 3.7 Max	~400B+	varies	128K	NVIDIA	Weights + infer + partial train
Kimi K2.7	1T	32B	256K	NVIDIA	Weights + infer
Llama 4 405B	405B	—	128K	NVIDIA	Weights + infer

Capability matrix (architecture guess, шкала 1–5)

Dimension	openPangu 2.0 Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
Code gen	3	5	4	4
Complex reasoning	3	5	5	4
Tool use / Agent	4	4	4	5
Ultra-long context	5	3	3	4
Infer efficiency	5	2	2	4
Sovereign HW	5	1	1	1
Full-stack OSS	5	3	3	3

Scenario picker

Сценарий	Pick	Почему
Code / hard reasoning	DeepSeek V4 Pro	~200B active, bench leader
Agent / multi-tool	Kimi K2.7	MCP ecosystem
Docs >256K tokens	openPangu 2.0 Pro	Native 512K
Sovereign / no NVIDIA	openPangu 2.0	Единственный Ascend-trained frontier MoE
Ascend / Huawei Cloud	openPangu 2.0	Native tuning, 2× throughput
Edge / phone	openPangu Embedded	30B on-device, Kirin offline
Cheap local infer	openPangu 2.0 Flash	6B active, ~96 GB RAM

05

Runbook на 6 шагов: ModelArts API + GitCode self-host

Hardware cheat sheet

Вариант	Recommended	Minimum	Notes
Flash (6B active)	1× Ascend 910B	~96 GB unified memory	Community tests на fat RAM boxes
Flash-Int8	1× Atlas A2	~48 GB	W4A8, <10 % loss
Pro (18B active)	4+ Ascend 910B	Multi-card cluster	Validate после July weights

6 steps to prod

01
Pick path: no HW → ModelArts API (Huawei Cloud → AI Gallery → openPangu 2.0 → subscribe Flash/Pro); есть Ascend cluster → GitCode.
02
Clone repos: gitcode.com/org/ascend-tribe — openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op.
03
CANN + torch_npu: Ascend drivers + CANN; в PyTorch проект добавить import torch_npu.
04
Flash single-card infer: inference script на 910B, --context_length 512000 (downscale по VRAM).
05
Quant or distributed: tight VRAM → openPangu-2.0-Flash-Int8; Pro → distributed_inference.py (post-July).
06
Finetune (opt): LoRA finetune.py --method lora --lora_rank 16; second pretrain после H2 code drop.

ModelArts API (curl)

bash

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "Кратко представьтесь."}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

Flash single-card infer (bash)

bash

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

Hard numbers для цитирования

Scale: Pro 505B/18B, Flash 92B/6B, оба 512K
Ascend: single-card 2×; 512K train +50 %
Train-infer: MoE consistency >99 %
Int8: memory −40 %, loss <10 %
HarmonyOS Agent: framework 2.0 success rate >90 %
512K analogy: 8 fat novels или monorepo целиком в одном prompt

06

Strategy: суверенитет, HarmonyOS Agent, cross-platform hosts

При US export controls на A100/H100 openPangu 2.0 доказывает: frontier MoE без NVIDIA — не теория, а shipped artifact. Это удар по narrative «CUDA monopoly».

Full-stack OSS = academic reproduce, vertical second pretrain, lower Ascend entry barrier. HarmonyOS 7 ставит openPangu 2.0 как native Agent engine; 30B Embedded крутится offline на Kirin phones.

openPangu 2.0 может проигрывать DeepSeek V4 Pro в general bench, но по 512K, sovereign HW, Ascend-native perf, full OSS, edge — почти без замены. Stack HarmonyOS Agent + iOS/Xcode CI + OpenClaw routing = infer на Ascend, toolchain на macOS. Laptop sleep убивает night jobs; Linux VPS без Metal/Keychain. VpsMesh Mac Mini M4 cloud rent = 7×24 + native Apple toolchain как OpEx. Цены аренды Mac Mini M4, центр помощи, оформить заказ.

Disclaimer: часть bench matrix — architecture inference; обновим после independent results. Дата публикации: 1 июля 2026.

FAQ

Частые вопросы

Flash (92B/6B active) live с 30.06., single 910B infer, API load. Pro (505B/18B active) — июль, ultra-long docs + second pretrain. Weights: GitCode Ascend Tribe.

Code/reasoning → DeepSeek V4 Pro (~200B active). 512K, sovereign Ascend, 2× throughput, full training stack → openPangu 2.0. Multi-model: OpenClaw routing.

Pure Ascend/ModelArts — нет. Со Xcode, Claude Code или OpenClaw daemon — Mac Mini M4 rent стабильнее. Цены, заказ.