HDC-2026-Timeline · 7 Komponenten · Training ohne NVIDIA · Wettbewerbsmatrix · 6-Schritte-Runbook
Am 30. Juni 2026 hat Huawei die HDC-2026-Zusage eingelöst: openPangu-2.0-Flash-Gewichte, Inferenzcode und Trainings-/Inferenz-Operatoren sind auf GitCode live. Dieser datengetriebene Leitfaden liefert die HDC-Timeline, Pro-/Flash-Spezifikationen, die Roadmap der 7 Open-Source-Komponenten, mHC/ModAttn/DSA+SWA-Architektur, den Nachweis erstes frontier MoE ohne NVIDIA-Training, eine Vergleichsmatrix zu DeepSeek/Qwen/Kimi, ein 6-Schritte-Runbook für ModelArts API und GitCode-Self-Hosting, HarmonyOS-Agent-Strategie, DSGVO-relevante Cloud-Hinweise und FAQ — plus warum Mac Mini M4 Mietpreise bei Cross-Platform-Agent-Stacks weiterhin sinnvoll sind.
Richard Yu stellte openPangu 2.0 auf der HDC 2026 (12. Juni 2026, Dongguan Songshan Lake) vor; Flash ging am 30. Juni open source. Die folgenden fünf Fehlannahmen korrelieren direkt mit Budget- und Compliance-Risiken.
Open Source = nur Gewichte: Branchenstandard ist Gewichte plus Inferenz. openPangu 2.0 plant zusätzlich Pre-Training-, Post-Training-Code und Ascend-Trainingsoperatoren — selten bei MoE dieser Größenordnung.
Training ohne NVIDIA unterschätzen: DeepSeek, Qwen, Kimi und Llama trainierten auf NVIDIA. openPangu 2.0 lief durchgängig auf Ascend 910B — erstes frontier-Modell dieser Klasse ohne NVIDIA-Hardware im Trainingspfad.
512K nur als Marketing: DeepSeek V4 Pro führt bei Code/Reasoning, aber 512K Kontext ist openPangus Differenzierer — rechnerisch ca. acht lange Romane in einem Prompt.
Flash vs. Pro verwechseln: Flash (92B/6B aktiv) ist live; Pro (505B/18B aktiv) Gewichte Juli 2026; Pre-/Post-Training-Code H2 2026.
Modell ohne Host-Plan: Ascend nutzt torch_npu, HarmonyOS Embedded auf dem Gerät. Agent-Stacks mit Xcode, Claude Code, OpenClaw brauchen oft macOS — siehe Multi-Modell-Routing.
| Datum | Ereignis |
|---|---|
| 2026-06-12 | HDC 2026: Richard Yu kündigt openPangu 2.0 an |
| 2026-06-30 | Flash-Gewichte, Basis-Inferenzcode, Operatoren auf GitCode |
| 2026-07 (Plan) | Pro-Gewichte und Inferenzcode |
| H2 2026 (Plan) | Pre-Training-Code, Post-Training-Code, weitere Operatoren |
| Metrik | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| Gesamtparameter | 505B | 92B |
| Aktive Parameter | 18B | 6B |
| Sparse-Ratio | ~28:1 | ~15:1 (DSA+SWA: extrem sparsam) |
| Kontextfenster | 512K | 512K |
| Status | Juli 2026 geplant | Seit 30.06. verfügbar |
| Komponente | Status |
|---|---|
| Modellarchitektur (Strukturdefinition) | Veröffentlicht |
| Modellgewichte (Flash) | Veröffentlicht 2026-06-30 |
| Technischer Bericht | Mit Gewichten synchron |
| Inferenzcode + Trainings-/Inferenz-Operatoren | Veröffentlicht 2026-06-30 |
| Modellgewichte (Pro) | Geplant Juli 2026 |
| Pre-Training-Code | Geplant H2 2026 |
| Post-Training-Code (SFT/RLHF) | Geplant H2 2026 |
Die ersten vier Punkte entsprechen üblichem Open Source. Pre-Training, Post-Training und Ascend-Operatoren bei MoE-505B-Skala ermöglichen echte Reproduzierbarkeit ab Null.
Lizenz: openPangu License — kommerzielle Nutzung, keine Lizenzgebühr, nicht-exklusiv. Details: GitCode Ascend Tribe.
openPangu 2.0 ist das erste frontier-Modell in voller Skala ohne NVIDIA-Hardware — ausschließlich Ascend 910B NPU, kein A100/H100.
import torch_npu schaltet BackendUnabhängige Third-Party-Benchmarks laufen noch. Die Wettbewerbsmatrix unten basiert auf Architektur-Inferenz, nicht auf veröffentlichten Scores — Update folgt nach Benchmark-Release.
| Modell | Gesamt | Aktiv | Kontext | Training | Open Source |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Vollstack (7 Teile) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Vollstack (7 Teile) |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | Gewichte + Inferenz |
| Qwen 3.7 Max | ~400B+ | variabel | 128K | NVIDIA | Gewichte + Inferenz + Teile Training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Gewichte + Inferenz |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Gewichte + Inferenz |
| Dimension | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Code-Generierung | 3 | 5 | 4 | 4 |
| Komplexes Reasoning | 3 | 5 | 5 | 4 |
| Tool-Use / Agent | 4 | 4 | 4 | 5 |
| Ultra-Long-Context | 5 | 3 | 3 | 4 |
| Inferenz-Effizienz | 5 | 2 | 2 | 4 |
| Souveräne Hardware | 5 | 1 | 1 | 1 |
| Vollstack Open Source | 5 | 3 | 3 | 3 |
| Szenario | Empfehlung | Begründung (datenbasiert) |
|---|---|---|
| Code / komplexes Reasoning | DeepSeek V4 Pro | ~200B aktiv, Benchmark-Führerschaft erwartet |
| Agent / Multi-Tool | Kimi K2.7 | MCP-Ökosystem |
| Dokumente >256K Token | openPangu 2.0 Pro | 512K natives Fenster |
| Souverän / ohne NVIDIA | openPangu 2.0 | Einziges frontier MoE rein Ascend-trainiert |
| Ascend / Huawei Cloud | openPangu 2.0 | Native Optimierung, 2× Durchsatz |
| Edge / Smartphone | openPangu Embedded | 30B On-Device, Kirin offline |
| Günstige lokale Inferenz | openPangu 2.0 Flash | 6B aktiv, ~96 GB RAM |
| Variante | Empfohlen | Minimum | Anmerkung |
|---|---|---|---|
| Flash (6B aktiv) | 1× Ascend 910B | ~96 GB Unified Memory | Community-Tests mit großem RAM |
| Flash-Int8 | 1× Atlas A2 | ~48 GB | W4A8, <10 % Genauigkeitsverlust |
| Pro (18B aktiv) | 4+ Ascend 910B | Multi-Card-Cluster | Validierung nach Juli-Gewichten |
Pfad wählen: ohne Hardware → ModelArts API (Huawei Cloud → AI Gallery → openPangu 2.0 → Flash/Pro abonnieren); mit Ascend-Cluster → GitCode.
Repos klonen: gitcode.com/org/ascend-tribe — openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op.
CANN + torch_npu: Ascend-Treiber und CANN installieren; import torch_npu im PyTorch-Projekt.
Flash Single-Card: Inferenzskript auf 910B, --context_length 512000 (nach VRAM anpassen).
Quantisierung / Verteilung: wenig VRAM → openPangu-2.0-Flash-Int8; Pro → distributed_inference.py (ab Juli).
Feintuning (optional): LoRA finetune.py --method lora --lora_rank 16; zweites Pre-Training ab H2-Code-Release.
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Stellen Sie sich kurz vor."}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
Unter US-Exportbeschränkungen für A100/H100 beweist openPangu 2.0: frontier MoE ohne NVIDIA ist messbar möglich. Vollstack-Open-Source senkt Ascend-Einstiegshürden für Forschung und vertikale Pre-Trainings.
HarmonyOS 7 positioniert openPangu 2.0 als native Agent-Engine; 30B Embedded läuft offline auf Kirin-Geräten. Für EU-Teams: ModelArts-Verarbeitung außerhalb des EWR erfordert DSGVO-konforme Auftragsverarbeitung, Datenminimierung und dokumentierte Transfermechanismen — prüfen Sie Region, AVV und Subprozessoren vor Produktiv-API-Nutzung.
In den Dimensionen 512K, souveräne Hardware, Ascend-native Effizienz, Vollstack-Open-Source, Edge ist openPangu schwer ersetzbar. Stacks mit HarmonyOS Agent + iOS/Xcode CI + OpenClaw teilen oft: Inferenz auf Ascend, Toolchain auf macOS. VpsMesh Mac Mini M4 Cloud-Miete liefert 7×24-Uptime und native Apple-Toolchain als OpEx. Preise: Mac Mini M4 Mietpreise, Setup: Hilfezentrum, Bestellung: Mac Mini M4 bestellen.
Haftungsausschluss: Teile der Benchmark-Matrix sind architekturbasiert; Update nach unabhängigen Ergebnissen. Veröffentlichungsdatum: 1. Juli 2026.
Flash (92B/6B aktiv) ist seit 30.06. auf GitCode, Single-Card-910B-Inferenz, ideal für API-Last. Pro (505B/18B aktiv) folgt im Juli — Ultra-Long-Docs und zweites Pre-Training. Gewichte: GitCode Ascend Tribe.
Code und Reasoning: DeepSeek V4 Pro (~200B aktiv). 512K, souveräne Ascend-Hardware, 2× Durchsatz, Vollstack-Trainingscode: openPangu 2.0. Multi-Modell: OpenClaw-Routing.
Rein Ascend/ModelArts: nein. Mit Xcode, Claude Code oder OpenClaw-Daemon lohnt sich Mac Mini M4 Miete. Mietpreise, Bestellung.