openPangu 2.0 Flash와 Pro의 차이는 무엇입니까?

Flash 버전은 92B 총 파라미터, 6B 활성화로 6월 30일 GitCode에 공개되었으며 Ascend 910B 단일 카드로 추론 가능합니다. Pro 버전은 505B 총 파라미터, 18B 활성화, 512K 컨텍스트이며 가중치는 7월 공개 예정으로 초장문 문서와 2차 사전학습에 적합합니다.

openPangu 2.0과 DeepSeek V4 Pro 중 어떻게 선택합니까?

코드 생성과 복잡 추론은 DeepSeek V4 Pro(약 200B 활성화)가 우위입니다. 512K 컨텍스트, 국산화 컴플라이언스, Ascend 네이티브 처리량, 전链路 훈련 코드 공개에서는 openPangu 2.0이 거의 대체 불가합니다.

Huawei openPangu 2.0 오픈소스 공개: 505B MoE, 512K 컨텍스트, Ascend 전链路 해설

Q: 크로스플랫폼 Agent 개발에 Mac Mini 대여가 필수입니까?

순수 Ascend/ModelArts만 사용한다면 필수가 아닙니다. 스택에 Xcode, Claude Code, OpenClaw 데몬이 포함되면 Mac Mini M4 월 대여가 더 안정적입니다. 요금제는 Mac Mini M4 대여 가격, 주문은 주문 페이지를 참고하세요.

01

openPangu 2.0을 이해하기 전, 흔한 오해 5가지를 짚습니다

Yu Chengdong은 HDC 2026(2026년 6월 12일, 동관 송산호)에서 openPangu 2.0을 정식 발표했으며, 6월 30일 Flash 버전이 선행 오픈소스화되었습니다. 많은 논의가 「또 하나의 국산 대규모 모델」에 머물러 있습니다. 아래 맹점은 배포와 조달 결정에 직접 영향을 줍니다.

01
오픈소스를 「가중치만」과 동일시합니다: 업계 관행은 가중치+추론만 공개합니다. openPangu 2.0은 사전학습·사후학습 코드와 Ascend 훈련 연산자 공개를 계획하며, 초대규모 MoE에서 극히 드문 전链路 오픈소스입니다.
02
「NVIDIA 비의존」의 역사적 의미를 간과합니다: DeepSeek, Qwen, Kimi, Llama는 모두 NVIDIA에서 훈련됩니다. openPangu 2.0은 전 과정 Ascend 910B로, NVIDIA 비의존 하드웨어에서 최첨단 규모 훈련을 완료하고 오픈소스화한 세계 최초 모델입니다.
03
종합 능력 랭킹으로 512K 가치를 부정합니다: 코드와 복잡 추론에서 DeepSeek V4 Pro가 여전히 우위이나, 512K 컨텍스트는 openPangu의 차별화 핵심입니다. 장편 소설 8권 분량에 해당합니다.
04
Flash와 Pro 공개 일정을 혼동합니다: Flash(92B/6B 활성화)는 공개 완료. Pro(505B/18B 활성화) 가중치는 2026년 7월 예정. 사전학습/사후학습 코드는 2026년 하반기에 단계 공개됩니다.
05
모델만 배포하고 호스트를 계획하지 않습니다: Ascend 스택은 torch_npu, HarmonyOS 단말은 Embedded 경로입니다. Agent가 Xcode, Claude Code, OpenClaw도 필요하면 모델은 Ascend, 툴체인은 macOS——다중 모델 라우팅 Gateway와 같은 계층 분리 아키텍처입니다.

02

이벤트 타임라인, 듀얼 버전 파라미터, 7대 오픈소스 컴포넌트

주요 타임라인

시점	이벤트
2026-06-12	HDC 2026 Yu Chengdong 기조연설에서 openPangu 2.0 정식 발표
2026-06-30	Flash 가중치, 기본 추론 코드, 훈련·추론 연산자 GitCode 공개
2026-07(예정)	Pro 모델 가중치와 추론 코드 공개
2026년 하반기(예정)	사전학습 코드, 사후학습 코드, 추가 훈련 연산자 순차 공개

Pro vs Flash 핵심 파라미터

지표	openPangu 2.0 Pro	openPangu 2.0 Flash
총 파라미터	505B	92B
활성 파라미터	18B	6B
희소 비율	~28:1	~15:1(Flash DSA+SWA로 극한 희소화 가능)
컨텍스트 윈도	512K	512K
이용 상태	7월 공개 예정	2026-06-30 공개 완료

7대 오픈소스 컴포넌트(전链路 공개)

컴포넌트	상태
모델 구조(아키텍처 정의)	공개 완료
모델 가중치(Flash)	2026-06-30 공개
기술 보고서	가중치와 동시 공개
추론 코드 + 훈련·추론 연산자	2026-06-30 공개
모델 가중치(Pro)	2026-07 예정
사전학습 코드	2026년 하반기 예정
사후학습 코드(SFT/RLHF)	2026년 하반기 예정

처음 4항목은 업계 오픈소스 관행입니다. 사전학습 코드, 사후학습 코드, Ascend 훈련 연산자는 초대규모 MoE에서 극히 드물며, 연구자와 기업이 제로부터 최첨단 모델을 재현할 수 있습니다.

오픈소스 라이선스는 Huawei openPangu License: 상업 이용 가능, 로열티 면제, 비독점. 세부 조항은 GitCode Ascend Tribe 저장소를 참고하세요.

03

기술 심층: MoE 아키텍처, Ascend 훈련, 개발자 생태계

아키텍처 혁신

mHC(Multi-Head Combinatorial) 라우팅: 전문가 라우팅 효율을 개선하고 MoE 부하 불균형을 완화합니다
Muon 옵티마이저: Microsoft가 제안한 2차 모멘텀 방식으로 대규모 훈련 안정성을 향상합니다
ModAttn(Modular Attention): 모듈형 Attention으로 512K 초장 컨텍스트를 지원합니다
DSA+SWA 초희소 Attention(Flash 전용): 극한 희소 비율을 구현. 6B 활성화로 92B 지식베이스를 호출하며 추론 연산량은 dense 6B에 근접합니다

하드웨어와 훈련 돌파

openPangu 2.0은 NVIDIA 비의존 하드웨어에서 전 규모 훈련을 완료한 최첨단 대규모 모델의 첫 사례입니다. 전 과정 Huawei Ascend 910B NPU, A100/H100 미사용.

단일 카드 처리량: Ascend에서 업계 주류 오픈소스 모델의 2배
슈퍼노드 훈련 효율: 약 +30% 향상
512K 장시퀀스 훈련 처리량: 약 +50% 향상
훈련·추론 일치율: >99%(MoE 모델의 일반적 과제)
추론 지연: 동급 모델 대비 약 1.2배 우위
단말 Embedded: 30B 단말 모델, 추론 50% 가속, 메모리 20% 절감, Kirin 칩 스마트폰 오프라인 실행 지원
Flash-Int8 양자화: W4A8, 메모리 40% 절감, 정밀도 손실 <10%

소프트웨어 스택과 배포 플랫폼

CANN(CUDA 유사) + torch_npu(PyTorch 어댑터), import torch_npu로 Ascend 백엔드 전환
클라우드: Huawei Cloud ModelArts API 직접 호출
오픈소스: GitCode Ascend Tribe에서 가중치 자체 배포
단말: HarmonyOS 네이티브 통합. HarmonyOS 7 Agent 시대 네이티브 AI 엔진

주의

독립 제3자 벤치마크는 현재 평가 중입니다. 아래 능력 매트릭스는 아키텍처 추론에 기반하며 실측 점수가 아닙니다. 결과 공개 후 본문을 업데이트합니다.

04

경쟁 횡단 비교: 파라미터, 능력, 시나리오 선정 매트릭스

주요 파라미터 비교

모델	총 파라미터	활성	컨텍스트	훈련 하드웨어	오픈소스 수준
openPangu 2.0 Pro	505B	18B	512K	Ascend NPU	전链路(7 컴포넌트)
openPangu 2.0 Flash	92B	6B	512K	Ascend NPU	전链路(7 컴포넌트)
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	가중치+추론
Qwen 3.7 Max	~400B+	가변	128K	NVIDIA	가중치+추론+일부 훈련
Kimi K2.7	1T	32B	256K	NVIDIA	가중치+추론
Llama 4 405B	405B	—	128K	NVIDIA	가중치+추론

능력 매트릭스(아키텍처 추론, 벤치마크 검증 대기)

능력 차원	openPangu 2.0 Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
코드 생성	★★★	★★★★★	★★★★	★★★★
복잡 추론	★★★	★★★★★	★★★★★	★★★★
도구 호출/Agent	★★★★	★★★★	★★★★	★★★★★
초장 컨텍스트	★★★★★	★★★	★★★	★★★★
추론 효율	★★★★★	★★	★★	★★★★
자체 통제	★★★★★	★	★	★
전链路 오픈소스	★★★★★	★★★	★★★	★★★

시나리오 선정 빠른 참조

시나리오	권장	이유
코드 생성 / 복잡 추론	DeepSeek V4 Pro	~200B 활성화, 성능 우위
Agent / 다중 도구 협업	Kimi K2.7	MCP 생태계 성숙
초장문서(>256K Token)	openPangu 2.0 Pro	512K 컨텍스트 1순위
국산화 / 컴플라이언스 / NVIDIA 비의존	openPangu 2.0	순수 국산 하드웨어 훈련 유일 최첨단 모델
Ascend / Huawei Cloud 배포	openPangu 2.0	네이티브 최적화, 처리량 2배
단말 / 스마트폰 배포	openPangu Embedded	30B 단말, Kirin 오프라인
저비용 로컬 추론	openPangu 2.0 Flash	6B 활성화, ~96GB로 실행 가능

05

6단계 Runbook: ModelArts API와 GitCode 자체 배포

하드웨어 요구사항 참고

버전	권장 하드웨어	최소 구성	비고
Flash(6B 활성화)	단일 Ascend 910B	~96GB 통합 메모리	대용량 메모리 시스템에서 커뮤니티 테스트 가능
Flash-Int8	단일 Atlas A2	~48GB 메모리	W4A8, 정밀도 손실 <10%
Pro(18B 활성화)	4+ Ascend 910B	다중 카드 클러스터	7월 가중치 공개 후 검증

6단계 구현 가이드

01
경로 선택: 하드웨어가 없으면 ModelArts API 우선(Huawei Cloud 가입 → AI Gallery → openPangu 2.0 검색 → Flash/Pro 구독). Ascend 클러스터가 있으면 GitCode 자체 배포.
02
저장소 가져오기: gitcode.com/org/ascend-tribe에서 openPangu-2.0-Flash, openPangu-2.0-Infer, openPangu-2.0-Op(연산자) 클론.
03
CANN + torch_npu 설정: Ascend 드라이버와 CANN 설치. PyTorch 프로젝트에 import torch_npu 추가하여 백엔드 전환.
04
Flash 단일 카드 추론: 910B에서 추론 스크립트 실행, --context_length 512000으로 장컨텍스트 검증(메모리에 따라 조정).
05
양자화 또는 분산: 메모리 부족 시 openPangu-2.0-Flash-Int8. Pro는 다중 카드 distributed_inference.py(7월 가중치 후).
06
도메인 미세조정(선택): LoRA 예시 finetune.py --method lora --lora_rank 16. 사전학습 코드는 하반기 오픈소스 후 2차 사전학습 가능.

API 호출 예시(ModelArts)

bash

curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
  -H "Content-Type: application/json" \
  -H "X-Auth-Token: ${TOKEN}" \
  -d '{
    "model": "openpangu-2.0-flash",
    "messages": [{"role": "user", "content": "안녕하세요, 자기소개를 해 주세요"}],
    "max_tokens": 1024,
    "temperature": 0.7
  }'

Flash 단일 카드 추론 예시

bash

python inference.py \
  --model_path ./openPangu-Flash \
  --device npu:0 \
  --context_length 512000 \
  --precision bf16

인용 가능한 핵심 데이터

파라미터 규모: Pro 505B/18B, Flash 92B/6B, 양 버전 공통 512K 컨텍스트
Ascend 처리량: 단일 카드에서 주류 오픈소스 모델 2배. 512K 훈련 처리량 +50%
훈련·추론 일치: MoE 훈련·추론 분포 일치율 >99%
양자화 효과: Flash-Int8 메모리 -40%, 정밀도 손실 <10%
HarmonyOS Agent: Agent 프레임워크 2.0 복잡 작업 성공률 >90%(openPangu 2.0 기반)
컨텍스트 비유: 512K ≈ 장편 소설 8권 분량 또는 대규모 코드베이스 전체를 단일 prompt에 투입 가능

06

전략적 의의: 국산화, HarmonyOS Agent, 크로스플랫폼 호스트 선정

미국의 A100/H100 대중 수출 규제 배경에서 openPangu 2.0은 NVIDIA 없이도 최첨단 MoE를 훈련할 수 있음을 증명했습니다. 이는 기술 성과를 넘어 「CUDA 독점」 서사에 대한 유력한 응답입니다. Yu Chengdong은 HDC 2026에서 「내 여생의 사전에 둘째는 없고, 첫째만 있다」고 밝혔습니다.

전链路 오픈소스로 학술 연구는 훈련을 재현할 수 있고, 기업은 수직 도메인 2차 사전학습이 가능하며, 개발자는 Ascend 연산 장벽을 낮출 수 있습니다. HarmonyOS 7은 Agent 시대에 전면 진입했으며 openPangu 2.0은 네이티브 AI 엔진입니다. 단말 30B 모델은 Kirin 스마트폰에서 오프라인 실행됩니다.

openPangu 2.0은 종합 능력에서 DeepSeek V4 Pro를 반드시 앞서지는 않지만, 512K 컨텍스트, 국산화, Ascend 네이티브, 전链路 오픈소스, 단말 적합 5차원에서는 거의 대체 불가합니다. 스택이 HarmonyOS Agent + iOS/Xcode CI + OpenClaw 다중 모델 라우팅을 아우르면 Ascend에서 추론, macOS에서 툴체인이라는 현실적 분업이 생깁니다. 노트북 덮개를 닫으면 심야 작업이 유실되고 Linux VPS에는 Metal과 Keychain이 없습니다. VpsMesh Mac Mini M4 클라우드 대여는 7×24 uptime과 네이티브 Apple 툴체인을 월 OpEx로 패키징합니다. 요금제는 Mac Mini M4 대여 가격, 배포는 고객 센터를 참고하세요.

면책 조항: 일부 벤치마크는 아키텍처 추론 평가입니다. 독립 제3자 결과 공개 후 지속 업데이트합니다. 게시일: 2026년 7월 1일.

자주 묻는 질문

독자가 가장 많이 묻는 3가지 질문

Flash(92B/6B 활성화)는 6월 30일 공개 완료, 910B 단일 카드 추론 가능, 고동시 API에 적합합니다. Pro(505B/18B 활성화)는 7월 공개 예정, 512K 장문서와 2차 사전학습 1순위입니다. 가중치는 GitCode Ascend Tribe를 참고하세요.

코드와 복잡 추론은 DeepSeek V4 Pro(~200B 활성화)를 선택합니다. 512K 컨텍스트, 국산화 컴플라이언스, Ascend 2배 처리량, 전链路 훈련 코드는 openPangu 2.0을 선택합니다. 다중 모델 병행은 OpenClaw 다중 모델 라우팅을 참고하세요.

순수 Ascend/ModelArts만 사용한다면 필수가 아닙니다. 스택에 Xcode, Claude Code, OpenClaw 데몬이 포함되면 Mac Mini M4 월 대여가 더 안정적입니다. 요금제 Mac Mini M4 대여 가격, 주문 주문 페이지를 참고하세요.