Huawei openPangu 2.0 오픈소스 공개: 505B MoE, 512K 컨텍스트, Ascend 전链路 해설

HDC 2026 타임라인 · 7대 컴포넌트 · NVIDIA 비의존 훈련 · 경쟁 매트릭스 · 6단계 Runbook

Huawei openPangu 2.0 오픈소스 대규모 언어 모델: Ascend MoE 아키텍처

2026년 6월 30일 Huawei는 HDC 2026 약속을 이행하여 openPangu-2.0-Flash 가중치, 추론 코드, 훈련·추론 연산자를 GitCode에 정식 공개했습니다. 오픈소스 Pangu 2.0, Ascend 대규모 모델, 또는 국산화 컴플라이언스 선정에 관심이 있다면, 본문은 공식 발표와 조사 자료를 바탕으로 HDC 타임라인, Pro/Flash 듀얼 버전 파라미터, 7대 오픈소스 컴포넌트 로드맵, mHC/ModAttn/DSA+SWA 아키텍처 해설, 세계 최초 NVIDIA 비의존 최첨단 훈련, DeepSeek/Qwen/Kimi 경쟁 매트릭스, ModelArts API + GitCode 자체 배포 6단계 Runbook, HarmonyOS Agent 전략적 의의, FAQ를 제공합니다. 크로스플랫폼 Agent 개발 시 iOS 측 더 안정적인 호스트로 Mac Mini M4 월 대여가 여전히 유효한 이유도 설명합니다.

01

openPangu 2.0을 이해하기 전, 흔한 오해 5가지를 짚습니다

Yu Chengdong은 HDC 2026(2026년 6월 12일, 동관 송산호)에서 openPangu 2.0을 정식 발표했으며, 6월 30일 Flash 버전이 선행 오픈소스화되었습니다. 많은 논의가 「또 하나의 국산 대규모 모델」에 머물러 있습니다. 아래 맹점은 배포와 조달 결정에 직접 영향을 줍니다.

  1. 01

    오픈소스를 「가중치만」과 동일시합니다: 업계 관행은 가중치+추론만 공개합니다. openPangu 2.0은 사전학습·사후학습 코드와 Ascend 훈련 연산자 공개를 계획하며, 초대규모 MoE에서 극히 드문 전链路 오픈소스입니다.

  2. 02

    「NVIDIA 비의존」의 역사적 의미를 간과합니다: DeepSeek, Qwen, Kimi, Llama는 모두 NVIDIA에서 훈련됩니다. openPangu 2.0은 전 과정 Ascend 910B로, NVIDIA 비의존 하드웨어에서 최첨단 규모 훈련을 완료하고 오픈소스화한 세계 최초 모델입니다.

  3. 03

    종합 능력 랭킹으로 512K 가치를 부정합니다: 코드와 복잡 추론에서 DeepSeek V4 Pro가 여전히 우위이나, 512K 컨텍스트는 openPangu의 차별화 핵심입니다. 장편 소설 8권 분량에 해당합니다.

  4. 04

    Flash와 Pro 공개 일정을 혼동합니다: Flash(92B/6B 활성화)는 공개 완료. Pro(505B/18B 활성화) 가중치는 2026년 7월 예정. 사전학습/사후학습 코드는 2026년 하반기에 단계 공개됩니다.

  5. 05

    모델만 배포하고 호스트를 계획하지 않습니다: Ascend 스택은 torch_npu, HarmonyOS 단말은 Embedded 경로입니다. Agent가 Xcode, Claude Code, OpenClaw도 필요하면 모델은 Ascend, 툴체인은 macOS——다중 모델 라우팅 Gateway와 같은 계층 분리 아키텍처입니다.

02

이벤트 타임라인, 듀얼 버전 파라미터, 7대 오픈소스 컴포넌트

주요 타임라인

시점이벤트
2026-06-12HDC 2026 Yu Chengdong 기조연설에서 openPangu 2.0 정식 발표
2026-06-30Flash 가중치, 기본 추론 코드, 훈련·추론 연산자 GitCode 공개
2026-07(예정)Pro 모델 가중치와 추론 코드 공개
2026년 하반기(예정)사전학습 코드, 사후학습 코드, 추가 훈련 연산자 순차 공개

Pro vs Flash 핵심 파라미터

지표openPangu 2.0 ProopenPangu 2.0 Flash
총 파라미터505B92B
활성 파라미터18B6B
희소 비율~28:1~15:1(Flash DSA+SWA로 극한 희소화 가능)
컨텍스트 윈도512K512K
이용 상태7월 공개 예정2026-06-30 공개 완료

7대 오픈소스 컴포넌트(전链路 공개)

컴포넌트상태
모델 구조(아키텍처 정의)공개 완료
모델 가중치(Flash)2026-06-30 공개
기술 보고서가중치와 동시 공개
추론 코드 + 훈련·추론 연산자2026-06-30 공개
모델 가중치(Pro)2026-07 예정
사전학습 코드2026년 하반기 예정
사후학습 코드(SFT/RLHF)2026년 하반기 예정

처음 4항목은 업계 오픈소스 관행입니다. 사전학습 코드, 사후학습 코드, Ascend 훈련 연산자는 초대규모 MoE에서 극히 드물며, 연구자와 기업이 제로부터 최첨단 모델을 재현할 수 있습니다.

오픈소스 라이선스는 Huawei openPangu License: 상업 이용 가능, 로열티 면제, 비독점. 세부 조항은 GitCode Ascend Tribe 저장소를 참고하세요.

03

기술 심층: MoE 아키텍처, Ascend 훈련, 개발자 생태계

아키텍처 혁신

  • mHC(Multi-Head Combinatorial) 라우팅: 전문가 라우팅 효율을 개선하고 MoE 부하 불균형을 완화합니다
  • Muon 옵티마이저: Microsoft가 제안한 2차 모멘텀 방식으로 대규모 훈련 안정성을 향상합니다
  • ModAttn(Modular Attention): 모듈형 Attention으로 512K 초장 컨텍스트를 지원합니다
  • DSA+SWA 초희소 Attention(Flash 전용): 극한 희소 비율을 구현. 6B 활성화로 92B 지식베이스를 호출하며 추론 연산량은 dense 6B에 근접합니다

하드웨어와 훈련 돌파

openPangu 2.0은 NVIDIA 비의존 하드웨어에서 전 규모 훈련을 완료한 최첨단 대규모 모델의 첫 사례입니다. 전 과정 Huawei Ascend 910B NPU, A100/H100 미사용.

  • 단일 카드 처리량: Ascend에서 업계 주류 오픈소스 모델의 2배
  • 슈퍼노드 훈련 효율:+30% 향상
  • 512K 장시퀀스 훈련 처리량:+50% 향상
  • 훈련·추론 일치율: >99%(MoE 모델의 일반적 과제)
  • 추론 지연: 동급 모델 대비 약 1.2배 우위
  • 단말 Embedded: 30B 단말 모델, 추론 50% 가속, 메모리 20% 절감, Kirin 칩 스마트폰 오프라인 실행 지원
  • Flash-Int8 양자화: W4A8, 메모리 40% 절감, 정밀도 손실 <10%

소프트웨어 스택과 배포 플랫폼

  • CANN(CUDA 유사) + torch_npu(PyTorch 어댑터), import torch_npu로 Ascend 백엔드 전환
  • 클라우드: Huawei Cloud ModelArts API 직접 호출
  • 오픈소스: GitCode Ascend Tribe에서 가중치 자체 배포
  • 단말: HarmonyOS 네이티브 통합. HarmonyOS 7 Agent 시대 네이티브 AI 엔진
주의

독립 제3자 벤치마크는 현재 평가 중입니다. 아래 능력 매트릭스는 아키텍처 추론에 기반하며 실측 점수가 아닙니다. 결과 공개 후 본문을 업데이트합니다.

04

경쟁 횡단 비교: 파라미터, 능력, 시나리오 선정 매트릭스

주요 파라미터 비교

모델총 파라미터활성컨텍스트훈련 하드웨어오픈소스 수준
openPangu 2.0 Pro505B18B512KAscend NPU전链路(7 컴포넌트)
openPangu 2.0 Flash92B6B512KAscend NPU전链路(7 컴포넌트)
DeepSeek V4 Pro1.6T~200B128KNVIDIA가중치+추론
Qwen 3.7 Max~400B+가변128KNVIDIA가중치+추론+일부 훈련
Kimi K2.71T32B256KNVIDIA가중치+추론
Llama 4 405B405B128KNVIDIA가중치+추론

능력 매트릭스(아키텍처 추론, 벤치마크 검증 대기)

능력 차원openPangu 2.0 ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
코드 생성★★★★★★★★★★★★★★★★
복잡 추론★★★★★★★★★★★★★★★★★
도구 호출/Agent★★★★★★★★★★★★★★★★★
초장 컨텍스트★★★★★★★★★★★★★★★
추론 효율★★★★★★★★★★★★★
자체 통제★★★★★
전链路 오픈소스★★★★★★★★★★★★★★

시나리오 선정 빠른 참조

시나리오권장이유
코드 생성 / 복잡 추론DeepSeek V4 Pro~200B 활성화, 성능 우위
Agent / 다중 도구 협업Kimi K2.7MCP 생태계 성숙
초장문서(>256K Token)openPangu 2.0 Pro512K 컨텍스트 1순위
국산화 / 컴플라이언스 / NVIDIA 비의존openPangu 2.0순수 국산 하드웨어 훈련 유일 최첨단 모델
Ascend / Huawei Cloud 배포openPangu 2.0네이티브 최적화, 처리량 2배
단말 / 스마트폰 배포openPangu Embedded30B 단말, Kirin 오프라인
저비용 로컬 추론openPangu 2.0 Flash6B 활성화, ~96GB로 실행 가능
05

6단계 Runbook: ModelArts API와 GitCode 자체 배포

하드웨어 요구사항 참고

버전권장 하드웨어최소 구성비고
Flash(6B 활성화)단일 Ascend 910B~96GB 통합 메모리대용량 메모리 시스템에서 커뮤니티 테스트 가능
Flash-Int8단일 Atlas A2~48GB 메모리W4A8, 정밀도 손실 <10%
Pro(18B 활성화)4+ Ascend 910B다중 카드 클러스터7월 가중치 공개 후 검증

6단계 구현 가이드

  1. 01

    경로 선택: 하드웨어가 없으면 ModelArts API 우선(Huawei Cloud 가입 → AI Gallery → openPangu 2.0 검색 → Flash/Pro 구독). Ascend 클러스터가 있으면 GitCode 자체 배포.

  2. 02

    저장소 가져오기: gitcode.com/org/ascend-tribe에서 openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op(연산자) 클론.

  3. 03

    CANN + torch_npu 설정: Ascend 드라이버와 CANN 설치. PyTorch 프로젝트에 import torch_npu 추가하여 백엔드 전환.

  4. 04

    Flash 단일 카드 추론: 910B에서 추론 스크립트 실행, --context_length 512000으로 장컨텍스트 검증(메모리에 따라 조정).

  5. 05

    양자화 또는 분산: 메모리 부족 시 openPangu-2.0-Flash-Int8. Pro는 다중 카드 distributed_inference.py(7월 가중치 후).

  6. 06

    도메인 미세조정(선택): LoRA 예시 finetune.py --method lora --lora_rank 16. 사전학습 코드는 하반기 오픈소스 후 2차 사전학습 가능.

API 호출 예시(ModelArts)

bash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "안녕하세요, 자기소개를 해 주세요"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

Flash 단일 카드 추론 예시

bash
python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

인용 가능한 핵심 데이터

  • 파라미터 규모: Pro 505B/18B, Flash 92B/6B, 양 버전 공통 512K 컨텍스트
  • Ascend 처리량: 단일 카드에서 주류 오픈소스 모델 2배. 512K 훈련 처리량 +50%
  • 훈련·추론 일치: MoE 훈련·추론 분포 일치율 >99%
  • 양자화 효과: Flash-Int8 메모리 -40%, 정밀도 손실 <10%
  • HarmonyOS Agent: Agent 프레임워크 2.0 복잡 작업 성공률 >90%(openPangu 2.0 기반)
  • 컨텍스트 비유: 512K ≈ 장편 소설 8권 분량 또는 대규모 코드베이스 전체를 단일 prompt에 투입 가능
06

전략적 의의: 국산화, HarmonyOS Agent, 크로스플랫폼 호스트 선정

미국의 A100/H100 대중 수출 규제 배경에서 openPangu 2.0은 NVIDIA 없이도 최첨단 MoE를 훈련할 수 있음을 증명했습니다. 이는 기술 성과를 넘어 「CUDA 독점」 서사에 대한 유력한 응답입니다. Yu Chengdong은 HDC 2026에서 「내 여생의 사전에 둘째는 없고, 첫째만 있다」고 밝혔습니다.

전链路 오픈소스로 학술 연구는 훈련을 재현할 수 있고, 기업은 수직 도메인 2차 사전학습이 가능하며, 개발자는 Ascend 연산 장벽을 낮출 수 있습니다. HarmonyOS 7은 Agent 시대에 전면 진입했으며 openPangu 2.0은 네이티브 AI 엔진입니다. 단말 30B 모델은 Kirin 스마트폰에서 오프라인 실행됩니다.

openPangu 2.0은 종합 능력에서 DeepSeek V4 Pro를 반드시 앞서지는 않지만, 512K 컨텍스트, 국산화, Ascend 네이티브, 전链路 오픈소스, 단말 적합 5차원에서는 거의 대체 불가합니다. 스택이 HarmonyOS Agent + iOS/Xcode CI + OpenClaw 다중 모델 라우팅을 아우르면 Ascend에서 추론, macOS에서 툴체인이라는 현실적 분업이 생깁니다. 노트북 덮개를 닫으면 심야 작업이 유실되고 Linux VPS에는 Metal과 Keychain이 없습니다. VpsMesh Mac Mini M4 클라우드 대여는 7×24 uptime과 네이티브 Apple 툴체인을 월 OpEx로 패키징합니다. 요금제는 Mac Mini M4 대여 가격, 배포는 고객 센터를 참고하세요.

면책 조항: 일부 벤치마크는 아키텍처 추론 평가입니다. 독립 제3자 결과 공개 후 지속 업데이트합니다. 게시일: 2026년 7월 1일.

자주 묻는 질문

독자가 가장 많이 묻는 3가지 질문

Flash(92B/6B 활성화)는 6월 30일 공개 완료, 910B 단일 카드 추론 가능, 고동시 API에 적합합니다. Pro(505B/18B 활성화)는 7월 공개 예정, 512K 장문서와 2차 사전학습 1순위입니다. 가중치는 GitCode Ascend Tribe를 참고하세요.

코드와 복잡 추론은 DeepSeek V4 Pro(~200B 활성화)를 선택합니다. 512K 컨텍스트, 국산화 컴플라이언스, Ascend 2배 처리량, 전链路 훈련 코드는 openPangu 2.0을 선택합니다. 다중 모델 병행은 OpenClaw 다중 모델 라우팅을 참고하세요.

순수 Ascend/ModelArts만 사용한다면 필수가 아닙니다. 스택에 Xcode, Claude Code, OpenClaw 데몬이 포함되면 Mac Mini M4 월 대여가 더 안정적입니다. 요금제 Mac Mini M4 대여 가격, 주문 주문 페이지를 참고하세요.