Таймлайн HDC 2026 · 7 компонентов · обучение без NVIDIA · матрица конкурентов · runbook на 6 шагов
30 июня 2026 — Huawei закрыл обещание HDC 2026: веса openPangu-2.0-Flash, inference-код и train/infer операторы лежат на GitCode. Если вы копаете суверенный LLM или деплой на Ascend, здесь весь стек: таймлайн HDC, спеки Pro/Flash, roadmap 7 open-source компонентов, архитектура mHC/ModAttn/DSA+SWA, факт первого frontier MoE без NVIDIA в training loop, матрица vs DeepSeek/Qwen/Kimi, 6-шаговый runbook (ModelArts API + GitCode self-host), HarmonyOS Agent, FAQ — и зачем для cross-platform агентов всё ещё нужен арендованный Mac Mini M4.
Richard Yu анонсировал openPangu 2.0 на HDC 2026 (12 июня 2026, Dongguan Songshan Lake); Flash ушёл в open source 30 июня. Большинство обсуждений застряло на «ещё один китайский LLM» — ниже пункты, которые напрямую бьют по закупке и инфраструктуре.
Open source = только weights: индустриальный минимум — weights + inference. openPangu 2.0 тащит pretrain/posttrain код и Ascend training ops — для MoE такого масштаба это редкость.
Игнор «no NVIDIA»: DeepSeek, Qwen, Kimi, Llama учились на NVIDIA. openPangu 2.0 — end-to-end на Ascend 910B, первый frontier-scale open model без NVIDIA в training path.
512K как маркeting fluff: DeepSeek V4 Pro топит code/reasoning, но 512K context — killer feature openPangu; это ~8 длинных романов в одном prompt.
Путаница Flash vs Pro: Flash (92B/6B active) уже live; Pro (505B/18B active) weights — июль 2026; pre/posttrain code — H2 2026.
Модель без host-плана: Ascend = torch_npu, HarmonyOS edge = Embedded. Agent со Xcode, Claude Code, OpenClaw — split stack, см. multi-model routing.
| Дата | Событие |
|---|---|
| 2026-06-12 | HDC 2026: официальный анонс openPangu 2.0 |
| 2026-06-30 | Flash weights, base inference, ops на GitCode |
| 2026-07 (plan) | Pro weights и inference code |
| H2 2026 (plan) | Pretrain code, posttrain code, доп. ops |
| Метрика | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| Всего параметров | 505B | 92B |
| Active params | 18B | 6B |
| Sparse ratio | ~28:1 | ~15:1 (DSA+SWA: ultra-sparse) |
| Context window | 512K | 512K |
| Статус | Июль 2026 (plan) | Live с 30.06. |
| Компонент | Статус |
|---|---|
| Model architecture | Released |
| Weights (Flash) | Released 2026-06-30 |
| Technical report | С weights |
| Inference code + train/infer ops | Released 2026-06-30 |
| Weights (Pro) | Plan: июль 2026 |
| Pretrain code | Plan: H2 2026 |
| Posttrain code (SFT/RLHF) | Plan: H2 2026 |
Первые четыре — industry standard. Pretrain, posttrain и Ascend ops на 505B MoE — это реальный zero-to-hero reproduce, не cosmetic open weights.
Лицензия openPangu License: commercial OK, royalty-free, non-exclusive. Детали: GitCode Ascend Tribe.
openPangu 2.0 — первый frontier LLM full-scale без NVIDIA hardware, только Ascend 910B NPU, zero A100/H100 в loop.
import torch_npu → Ascend backendIndependent third-party benchmarks ещё крутятся. Матрица ниже — architecture inference, не published scores. Обновим после релиза bench.
| Модель | Total | Active | Context | Train HW | Open source |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Full stack (7) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Full stack (7) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | Weights + infer |
| Qwen 3.7 Max | ~400B+ | varies | 128K | NVIDIA | Weights + infer + partial train |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Weights + infer |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Weights + infer |
| Dimension | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Code gen | 3 | 5 | 4 | 4 |
| Complex reasoning | 3 | 5 | 5 | 4 |
| Tool use / Agent | 4 | 4 | 4 | 5 |
| Ultra-long context | 5 | 3 | 3 | 4 |
| Infer efficiency | 5 | 2 | 2 | 4 |
| Sovereign HW | 5 | 1 | 1 | 1 |
| Full-stack OSS | 5 | 3 | 3 | 3 |
| Сценарий | Pick | Почему |
|---|---|---|
| Code / hard reasoning | DeepSeek V4 Pro | ~200B active, bench leader |
| Agent / multi-tool | Kimi K2.7 | MCP ecosystem |
| Docs >256K tokens | openPangu 2.0 Pro | Native 512K |
| Sovereign / no NVIDIA | openPangu 2.0 | Единственный Ascend-trained frontier MoE |
| Ascend / Huawei Cloud | openPangu 2.0 | Native tuning, 2× throughput |
| Edge / phone | openPangu Embedded | 30B on-device, Kirin offline |
| Cheap local infer | openPangu 2.0 Flash | 6B active, ~96 GB RAM |
| Вариант | Recommended | Minimum | Notes |
|---|---|---|---|
| Flash (6B active) | 1× Ascend 910B | ~96 GB unified memory | Community tests на fat RAM boxes |
| Flash-Int8 | 1× Atlas A2 | ~48 GB | W4A8, <10 % loss |
| Pro (18B active) | 4+ Ascend 910B | Multi-card cluster | Validate после July weights |
Pick path: no HW → ModelArts API (Huawei Cloud → AI Gallery → openPangu 2.0 → subscribe Flash/Pro); есть Ascend cluster → GitCode.
Clone repos: gitcode.com/org/ascend-tribe — openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op.
CANN + torch_npu: Ascend drivers + CANN; в PyTorch проект добавить import torch_npu.
Flash single-card infer: inference script на 910B, --context_length 512000 (downscale по VRAM).
Quant or distributed: tight VRAM → openPangu-2.0-Flash-Int8; Pro → distributed_inference.py (post-July).
Finetune (opt): LoRA finetune.py --method lora --lora_rank 16; second pretrain после H2 code drop.
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Кратко представьтесь."}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
При US export controls на A100/H100 openPangu 2.0 доказывает: frontier MoE без NVIDIA — не теория, а shipped artifact. Это удар по narrative «CUDA monopoly».
Full-stack OSS = academic reproduce, vertical second pretrain, lower Ascend entry barrier. HarmonyOS 7 ставит openPangu 2.0 как native Agent engine; 30B Embedded крутится offline на Kirin phones.
openPangu 2.0 может проигрывать DeepSeek V4 Pro в general bench, но по 512K, sovereign HW, Ascend-native perf, full OSS, edge — почти без замены. Stack HarmonyOS Agent + iOS/Xcode CI + OpenClaw routing = infer на Ascend, toolchain на macOS. Laptop sleep убивает night jobs; Linux VPS без Metal/Keychain. VpsMesh Mac Mini M4 cloud rent = 7×24 + native Apple toolchain как OpEx. Цены аренды Mac Mini M4, центр помощи, оформить заказ.
Disclaimer: часть bench matrix — architecture inference; обновим после independent results. Дата публикации: 1 июля 2026.
Flash (92B/6B active) live с 30.06., single 910B infer, API load. Pro (505B/18B active) — июль, ultra-long docs + second pretrain. Weights: GitCode Ascend Tribe.
Code/reasoning → DeepSeek V4 Pro (~200B active). 512K, sovereign Ascend, 2× throughput, full training stack → openPangu 2.0. Multi-model: OpenClaw routing.