Chronologie HDC 2026 · 7 composants · entraînement sans NVIDIA · matrice concurrentielle · runbook en 6 étapes
Le 30 juin 2026, Huawei tient la promesse formulée à la HDC 2026 : les poids openPangu-2.0-Flash, le code d'inférence et les opérateurs d'entraînement/inférence sont publiés sur GitCode. Pour les équipes qui évaluent un grand modèle souverain ou un déploiement Ascend, cet article propose une lecture structurée — chronologie HDC, spécifications Pro/Flash, feuille de route des 7 composants open source, architecture mHC/ModAttn/DSA+SWA, le fait marquant d'un entraînement frontier sans NVIDIA, une matrice face à DeepSeek, Qwen et Kimi, un runbook en six étapes (API ModelArts et auto-hébergement GitCode), la dimension stratégique HarmonyOS Agent et une FAQ — avec une note sur la location Mac Mini M4 lorsque la chaîne d'outils s'étend à iOS et macOS.
Richard Yu a présenté openPangu 2.0 lors de la HDC 2026 (12 juin 2026, Dongguan Songshan Lake) ; la variante Flash est passée en open source le 30 juin. Beaucoup de discussions restent au niveau « un modèle chinois de plus » — alors que les points suivants conditionnent directement budget et feuille de route technique.
Open source = poids uniquement : l'usage courant s'arrête aux poids et à l'inférence. openPangu 2.0 prévoit aussi le code de pré-entraînement, de post-entraînement et les opérateurs Ascend — une ouverture intégrale rare à l'échelle MoE.
Sous-estimer l'entraînement sans NVIDIA : DeepSeek, Qwen, Kimi et Llama ont tous été entraînés sur NVIDIA. openPangu 2.0 a été entièrement formé sur Ascend 910B — premier modèle frontier de cette envergure hors écosystème NVIDIA.
Réduire le 512K à un argument marketing : DeepSeek V4 Pro reste fort en code et raisonnement, mais le contexte 512K constitue l'avantage différenciant d'openPangu — l'équivalent d'environ huit romans longs dans un seul prompt.
Confondre le calendrier Flash et Pro : Flash (92B/6B actifs) est disponible ; Pro (505B/18B actifs) est prévu en juillet 2026 ; le code pré/post-entraînement arrive au second semestre 2026.
Déployer le modèle sans hôte adapté : la pile Ascend repose sur torch_npu ; HarmonyOS embarque une variante Embedded. Si votre agent combine Xcode, Claude Code ou OpenClaw, la séparation modèle/outillage rejoint la logique du routage multi-modèles.
| Date | Événement |
|---|---|
| 2026-06-12 | HDC 2026 : annonce officielle d'openPangu 2.0 par Richard Yu |
| 2026-06-30 | Poids Flash, code d'inférence de base et opérateurs sur GitCode |
| 2026-07 (prévu) | Poids et code d'inférence Pro |
| S2 2026 (prévu) | Code pré-entraînement, post-entraînement, opérateurs supplémentaires |
| Indicateur | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| Paramètres totaux | 505B | 92B |
| Paramètres actifs | 18B | 6B |
| Ratio de sparsité | ~28:1 | ~15:1 (DSA+SWA : sparsité extrême) |
| Fenêtre de contexte | 512K | 512K |
| Disponibilité | Juillet 2026 prévu | Disponible depuis le 30.06. |
| Composant | Statut |
|---|---|
| Architecture du modèle | Publié |
| Poids (Flash) | Publié le 2026-06-30 |
| Rapport technique | Publié avec les poids |
| Code d'inférence + opérateurs | Publié le 2026-06-30 |
| Poids (Pro) | Prévu juillet 2026 |
| Code de pré-entraînement | Prévu S2 2026 |
| Code post-entraînement (SFT/RLHF) | Prévu S2 2026 |
Les quatre premiers éléments correspondent à l'open source habituel. Pré-entraînement, post-entraînement et opérateurs Ascend à l'échelle 505B ouvrent une reproductibilité réelle depuis zéro.
Licence openPangu License : usage commercial autorisé, sans redevance, non exclusive. Détails sur GitCode Ascend Tribe.
openPangu 2.0 est le premier grand modèle frontier entièrement formé hors hardware NVIDIA, exclusivement sur Ascend 910B NPU — sans A100 ni H100.
import torch_npu bascule le backendLes benchmarks indépendants sont encore en cours. La matrice concurrentielle ci-dessous repose sur une inférence architecturale, non sur des scores publiés — mise à jour prévue après publication des résultats.
| Modèle | Total | Actifs | Contexte | Entraînement | Open source |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | Intégral (7 composants) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | Intégral (7 composants) |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | Poids + inférence |
| Qwen 3.7 Max | ~400B+ | variable | 128K | NVIDIA | Poids + inférence + entraînement partiel |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Poids + inférence |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Poids + inférence |
| Dimension | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Génération de code | 3 | 5 | 4 | 4 |
| Raisonnement complexe | 3 | 5 | 5 | 4 |
| Outils / Agent | 4 | 4 | 4 | 5 |
| Contexte ultra-long | 5 | 3 | 3 | 4 |
| Efficacité d'inférence | 5 | 2 | 2 | 4 |
| Souveraineté matérielle | 5 | 1 | 1 | 1 |
| Open source intégral | 5 | 3 | 3 | 3 |
| Scénario | Recommandation | Justification |
|---|---|---|
| Code / raisonnement complexe | DeepSeek V4 Pro | ~200B actifs, leadership attendu |
| Agent / multi-outils | Kimi K2.7 | Écosystème MCP mature |
| Documents >256K tokens | openPangu 2.0 Pro | Fenêtre native 512K |
| Souveraineté / sans NVIDIA | openPangu 2.0 | Seul MoE frontier entièrement formé sur Ascend |
| Déploiement Ascend / Huawei Cloud | openPangu 2.0 | Optimisation native, débit 2× |
| Edge / smartphone | openPangu Embedded | 30B embarqué, Kirin offline |
| Inférence locale économique | openPangu 2.0 Flash | 6B actifs, ~96 Go RAM |
| Variante | Recommandé | Minimum | Remarque |
|---|---|---|---|
| Flash (6B actifs) | 1× Ascend 910B | ~96 Go mémoire unifiée | Tests communautaires sur grosses configs RAM |
| Flash-Int8 | 1× Atlas A2 | ~48 Go | W4A8, perte <10 % |
| Pro (18B actifs) | 4+ Ascend 910B | Cluster multi-cartes | Validation après poids de juillet |
Choisir le chemin : sans matériel → API ModelArts (Huawei Cloud → AI Gallery → openPangu 2.0 → abonnement Flash/Pro) ; avec cluster Ascend → GitCode.
Cloner les dépôts : gitcode.com/org/ascend-tribe — openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op.
CANN + torch_npu : installer pilotes Ascend et CANN ; ajouter import torch_npu au projet PyTorch.
Inférence Flash mono-carte : script sur 910B, --context_length 512000 (ajuster selon VRAM).
Quantification ou distribution : VRAM limitée → openPangu-2.0-Flash-Int8 ; Pro → distributed_inference.py (après juillet).
Affinage (optionnel) : LoRA finetune.py --method lora --lora_rank 16 ; second pré-entraînement après publication du code S2.
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "Présentez-vous brièvement."}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
Dans un contexte de restrictions américaines sur A100/H100, openPangu 2.0 démontre qu'un MoE frontier est réalisable sans NVIDIA — au-delà de la prouesse technique, cela reconfigure le récit de la « domination CUDA ».
L'open source intégral permet la reproductibilité académique, le pré-entraînement vertical en entreprise et un accès Ascend plus accessible. HarmonyOS 7 place openPangu 2.0 comme moteur Agent natif ; le modèle 30B embarqué fonctionne offline sur smartphones Kirin.
openPangu 2.0 ne surpasse pas nécessairement DeepSeek V4 Pro en capacités générales, mais sur 512K, souveraineté, efficacité Ascend, open source intégral et edge, il occupe une position distinctive. Les stacks combinant Agent HarmonyOS + CI Xcode/iOS + routage OpenClaw séparent souvent inférence Ascend et outillage macOS — un portable fermé interrompt les tâches nocturnes ; un VPS Linux n'offre ni Metal ni Keychain. VpsMesh location cloud Mac Mini M4 regroupe disponibilité 7×24 et chaîne Apple native en OpEx mensuel. Tarifs : Mac Mini M4 tarifs location, aide : centre d'aide, commande : Mac Mini M4 commander.
Avertissement : une partie de la matrice repose sur une évaluation architecturale ; mise à jour après benchmarks indépendants. Date de publication : 1er juillet 2026.
Flash (92B/6B actifs) est en ligne depuis le 30 juin, inférence sur une 910B, idéal pour charge API. Pro (505B/18B actifs) arrive en juillet — documents ultra-longs et second pré-entraînement. Poids : GitCode Ascend Tribe.
Code et raisonnement : DeepSeek V4 Pro (~200B actifs). 512K, souveraineté Ascend, débit 2×, code d'entraînement complet : openPangu 2.0. Coexistence multi-modèles : routage OpenClaw.