HDC 2026 타임라인 · 7대 컴포넌트 · NVIDIA 비의존 훈련 · 경쟁 매트릭스 · 6단계 Runbook
2026년 6월 30일 Huawei는 HDC 2026 약속을 이행하여 openPangu-2.0-Flash 가중치, 추론 코드, 훈련·추론 연산자를 GitCode에 정식 공개했습니다. 오픈소스 Pangu 2.0, Ascend 대규모 모델, 또는 국산화 컴플라이언스 선정에 관심이 있다면, 본문은 공식 발표와 조사 자료를 바탕으로 HDC 타임라인, Pro/Flash 듀얼 버전 파라미터, 7대 오픈소스 컴포넌트 로드맵, mHC/ModAttn/DSA+SWA 아키텍처 해설, 세계 최초 NVIDIA 비의존 최첨단 훈련, DeepSeek/Qwen/Kimi 경쟁 매트릭스, ModelArts API + GitCode 자체 배포 6단계 Runbook, HarmonyOS Agent 전략적 의의, FAQ를 제공합니다. 크로스플랫폼 Agent 개발 시 iOS 측 더 안정적인 호스트로 Mac Mini M4 월 대여가 여전히 유효한 이유도 설명합니다.
Yu Chengdong은 HDC 2026(2026년 6월 12일, 동관 송산호)에서 openPangu 2.0을 정식 발표했으며, 6월 30일 Flash 버전이 선행 오픈소스화되었습니다. 많은 논의가 「또 하나의 국산 대규모 모델」에 머물러 있습니다. 아래 맹점은 배포와 조달 결정에 직접 영향을 줍니다.
오픈소스를 「가중치만」과 동일시합니다: 업계 관행은 가중치+추론만 공개합니다. openPangu 2.0은 사전학습·사후학습 코드와 Ascend 훈련 연산자 공개를 계획하며, 초대규모 MoE에서 극히 드문 전链路 오픈소스입니다.
「NVIDIA 비의존」의 역사적 의미를 간과합니다: DeepSeek, Qwen, Kimi, Llama는 모두 NVIDIA에서 훈련됩니다. openPangu 2.0은 전 과정 Ascend 910B로, NVIDIA 비의존 하드웨어에서 최첨단 규모 훈련을 완료하고 오픈소스화한 세계 최초 모델입니다.
종합 능력 랭킹으로 512K 가치를 부정합니다: 코드와 복잡 추론에서 DeepSeek V4 Pro가 여전히 우위이나, 512K 컨텍스트는 openPangu의 차별화 핵심입니다. 장편 소설 8권 분량에 해당합니다.
Flash와 Pro 공개 일정을 혼동합니다: Flash(92B/6B 활성화)는 공개 완료. Pro(505B/18B 활성화) 가중치는 2026년 7월 예정. 사전학습/사후학습 코드는 2026년 하반기에 단계 공개됩니다.
모델만 배포하고 호스트를 계획하지 않습니다: Ascend 스택은 torch_npu, HarmonyOS 단말은 Embedded 경로입니다. Agent가 Xcode, Claude Code, OpenClaw도 필요하면 모델은 Ascend, 툴체인은 macOS——다중 모델 라우팅 Gateway와 같은 계층 분리 아키텍처입니다.
| 시점 | 이벤트 |
|---|---|
| 2026-06-12 | HDC 2026 Yu Chengdong 기조연설에서 openPangu 2.0 정식 발표 |
| 2026-06-30 | Flash 가중치, 기본 추론 코드, 훈련·추론 연산자 GitCode 공개 |
| 2026-07(예정) | Pro 모델 가중치와 추론 코드 공개 |
| 2026년 하반기(예정) | 사전학습 코드, 사후학습 코드, 추가 훈련 연산자 순차 공개 |
| 지표 | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| 총 파라미터 | 505B | 92B |
| 활성 파라미터 | 18B | 6B |
| 희소 비율 | ~28:1 | ~15:1(Flash DSA+SWA로 극한 희소화 가능) |
| 컨텍스트 윈도 | 512K | 512K |
| 이용 상태 | 7월 공개 예정 | 2026-06-30 공개 완료 |
| 컴포넌트 | 상태 |
|---|---|
| 모델 구조(아키텍처 정의) | 공개 완료 |
| 모델 가중치(Flash) | 2026-06-30 공개 |
| 기술 보고서 | 가중치와 동시 공개 |
| 추론 코드 + 훈련·추론 연산자 | 2026-06-30 공개 |
| 모델 가중치(Pro) | 2026-07 예정 |
| 사전학습 코드 | 2026년 하반기 예정 |
| 사후학습 코드(SFT/RLHF) | 2026년 하반기 예정 |
처음 4항목은 업계 오픈소스 관행입니다. 사전학습 코드, 사후학습 코드, Ascend 훈련 연산자는 초대규모 MoE에서 극히 드물며, 연구자와 기업이 제로부터 최첨단 모델을 재현할 수 있습니다.
오픈소스 라이선스는 Huawei openPangu License: 상업 이용 가능, 로열티 면제, 비독점. 세부 조항은 GitCode Ascend Tribe 저장소를 참고하세요.
openPangu 2.0은 NVIDIA 비의존 하드웨어에서 전 규모 훈련을 완료한 최첨단 대규모 모델의 첫 사례입니다. 전 과정 Huawei Ascend 910B NPU, A100/H100 미사용.
import torch_npu로 Ascend 백엔드 전환독립 제3자 벤치마크는 현재 평가 중입니다. 아래 능력 매트릭스는 아키텍처 추론에 기반하며 실측 점수가 아닙니다. 결과 공개 후 본문을 업데이트합니다.
| 모델 | 총 파라미터 | 활성 | 컨텍스트 | 훈련 하드웨어 | 오픈소스 수준 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend NPU | 전链路(7 컴포넌트) |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend NPU | 전链路(7 컴포넌트) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | 가중치+추론 |
| Qwen 3.7 Max | ~400B+ | 가변 | 128K | NVIDIA | 가중치+추론+일부 훈련 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 가중치+추론 |
| Llama 4 405B | 405B | — | 128K | NVIDIA | 가중치+추론 |
| 능력 차원 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| 코드 생성 | ★★★ | ★★★★★ | ★★★★ | ★★★★ |
| 복잡 추론 | ★★★ | ★★★★★ | ★★★★★ | ★★★★ |
| 도구 호출/Agent | ★★★★ | ★★★★ | ★★★★ | ★★★★★ |
| 초장 컨텍스트 | ★★★★★ | ★★★ | ★★★ | ★★★★ |
| 추론 효율 | ★★★★★ | ★★ | ★★ | ★★★★ |
| 자체 통제 | ★★★★★ | ★ | ★ | ★ |
| 전链路 오픈소스 | ★★★★★ | ★★★ | ★★★ | ★★★ |
| 시나리오 | 권장 | 이유 |
|---|---|---|
| 코드 생성 / 복잡 추론 | DeepSeek V4 Pro | ~200B 활성화, 성능 우위 |
| Agent / 다중 도구 협업 | Kimi K2.7 | MCP 생태계 성숙 |
| 초장문서(>256K Token) | openPangu 2.0 Pro | 512K 컨텍스트 1순위 |
| 국산화 / 컴플라이언스 / NVIDIA 비의존 | openPangu 2.0 | 순수 국산 하드웨어 훈련 유일 최첨단 모델 |
| Ascend / Huawei Cloud 배포 | openPangu 2.0 | 네이티브 최적화, 처리량 2배 |
| 단말 / 스마트폰 배포 | openPangu Embedded | 30B 단말, Kirin 오프라인 |
| 저비용 로컬 추론 | openPangu 2.0 Flash | 6B 활성화, ~96GB로 실행 가능 |
| 버전 | 권장 하드웨어 | 최소 구성 | 비고 |
|---|---|---|---|
| Flash(6B 활성화) | 단일 Ascend 910B | ~96GB 통합 메모리 | 대용량 메모리 시스템에서 커뮤니티 테스트 가능 |
| Flash-Int8 | 단일 Atlas A2 | ~48GB 메모리 | W4A8, 정밀도 손실 <10% |
| Pro(18B 활성화) | 4+ Ascend 910B | 다중 카드 클러스터 | 7월 가중치 공개 후 검증 |
경로 선택: 하드웨어가 없으면 ModelArts API 우선(Huawei Cloud 가입 → AI Gallery → openPangu 2.0 검색 → Flash/Pro 구독). Ascend 클러스터가 있으면 GitCode 자체 배포.
저장소 가져오기: gitcode.com/org/ascend-tribe에서 openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op(연산자) 클론.
CANN + torch_npu 설정: Ascend 드라이버와 CANN 설치. PyTorch 프로젝트에 import torch_npu 추가하여 백엔드 전환.
Flash 단일 카드 추론: 910B에서 추론 스크립트 실행, --context_length 512000으로 장컨텍스트 검증(메모리에 따라 조정).
양자화 또는 분산: 메모리 부족 시 openPangu-2.0-Flash-Int8. Pro는 다중 카드 distributed_inference.py(7월 가중치 후).
도메인 미세조정(선택): LoRA 예시 finetune.py --method lora --lora_rank 16. 사전학습 코드는 하반기 오픈소스 후 2차 사전학습 가능.
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{
"model": "openpangu-2.0-flash",
"messages": [{"role": "user", "content": "안녕하세요, 자기소개를 해 주세요"}],
"max_tokens": 1024,
"temperature": 0.7
}'
python inference.py \ --model_path ./openPangu-Flash \ --device npu:0 \ --context_length 512000 \ --precision bf16
미국의 A100/H100 대중 수출 규제 배경에서 openPangu 2.0은 NVIDIA 없이도 최첨단 MoE를 훈련할 수 있음을 증명했습니다. 이는 기술 성과를 넘어 「CUDA 독점」 서사에 대한 유력한 응답입니다. Yu Chengdong은 HDC 2026에서 「내 여생의 사전에 둘째는 없고, 첫째만 있다」고 밝혔습니다.
전链路 오픈소스로 학술 연구는 훈련을 재현할 수 있고, 기업은 수직 도메인 2차 사전학습이 가능하며, 개발자는 Ascend 연산 장벽을 낮출 수 있습니다. HarmonyOS 7은 Agent 시대에 전면 진입했으며 openPangu 2.0은 네이티브 AI 엔진입니다. 단말 30B 모델은 Kirin 스마트폰에서 오프라인 실행됩니다.
openPangu 2.0은 종합 능력에서 DeepSeek V4 Pro를 반드시 앞서지는 않지만, 512K 컨텍스트, 국산화, Ascend 네이티브, 전链路 오픈소스, 단말 적합 5차원에서는 거의 대체 불가합니다. 스택이 HarmonyOS Agent + iOS/Xcode CI + OpenClaw 다중 모델 라우팅을 아우르면 Ascend에서 추론, macOS에서 툴체인이라는 현실적 분업이 생깁니다. 노트북 덮개를 닫으면 심야 작업이 유실되고 Linux VPS에는 Metal과 Keychain이 없습니다. VpsMesh Mac Mini M4 클라우드 대여는 7×24 uptime과 네이티브 Apple 툴체인을 월 OpEx로 패키징합니다. 요금제는 Mac Mini M4 대여 가격, 배포는 고객 센터를 참고하세요.
면책 조항: 일부 벤치마크는 아키텍처 추론 평가입니다. 독립 제3자 결과 공개 후 지속 업데이트합니다. 게시일: 2026년 7월 1일.
Flash(92B/6B 활성화)는 6월 30일 공개 완료, 910B 단일 카드 추론 가능, 고동시 API에 적합합니다. Pro(505B/18B 활성화)는 7월 공개 예정, 512K 장문서와 2차 사전학습 1순위입니다. 가중치는 GitCode Ascend Tribe를 참고하세요.
코드와 복잡 추론은 DeepSeek V4 Pro(~200B 활성화)를 선택합니다. 512K 컨텍스트, 국산화 컴플라이언스, Ascend 2배 처리량, 전链路 훈련 코드는 openPangu 2.0을 선택합니다. 다중 모델 병행은 OpenClaw 다중 모델 라우팅을 참고하세요.
순수 Ascend/ModelArts만 사용한다면 필수가 아닙니다. 스택에 Xcode, Claude Code, OpenClaw 데몬이 포함되면 Mac Mini M4 월 대여가 더 안정적입니다. 요금제 Mac Mini M4 대여 가격, 주문 주문 페이지를 참고하세요.