antirez 신 스택 · 통합 메모리 청구서 · 3 단계 렌탈 의사결정 · ds4-server 셋업 체크리스트
Redis 의 저자 antirez 가 약 한 주 만에 C 로 작성한 ds4(DwarfStar 4) 덕분에 DeepSeek V4 Flash 가 단일 Mac 에서 실용적으로 동작하기 시작했습니다. 그러나 진입 장벽은 만만치 않습니다. 통합 메모리 96GB Mac 이 하한, 512GB 가 쾌적 구간이며 본체 가격은 원화로 약 600 만 원에서 2,000 만 원 이상까지 벌어집니다. 이 글은 독립 개발자·AI 연구자·소규모 팀에 세 가지를 제공합니다. 첫째, ds4 와 DeepSeek V4 Flash 의 현실적 하드웨어 청구서를 정리하고 「PRO 도 512GB Mac 에서 돈다」는 오해를 바로잡습니다. 둘째, 96 / 128 / 256 / 512GB 4 단계에 대한 용도별 단계 전환 의사결정 매트릭스와 3 년 TCO 추정을 제시합니다. 셋째, VpsMesh 클라우드 Mac 노드 위에서 ds4 를 띄우는 최소 절차와 Cursor / opencode 연동 체크리스트를 제공합니다.
ds4 는 DwarfStar 4 의 약자로, Redis 를 만든 Salvatore Sanfilippo(antirez) 가 작성했습니다. llama.cpp 의 래퍼도, 범용 GGUF 로더도, 또 하나의 웹 UI 도 아닙니다. DeepSeek V4 Flash 만을 위해 설계된 네이티브 추론 엔진이며, 주요 백엔드는 macOS 의 Metal 과 Linux 의 CUDA(DGX Spark 포함) 두 가지뿐입니다. AMD ROCm 은 별도 브랜치에서만 관리됩니다. 이러한 「좁고 깊은」 선택이 ds4 가 공개 며칠 만에 GitHub 스타 1 만 개를 돌파하고 범용 러너가 낼 수 없는 수치를 기록한 근본 이유입니다.
범위를 좁힌 덕에 ds4 는 그동안 로컬 추론이 모호하게 처리하던 사안들을 정면 돌파합니다. DeepSeek V4 의 MoE 라우팅에 대해, 라우팅 전문가 레이어만 2-bit 까지 강하게 양자화하고 나머지 레이어는 정밀도를 유지하는 선택적 양자화를 구현했습니다. 1M 토큰 컨텍스트를 1 급 시민으로 다뤄, KV 캐시를 디스크로 지연 기록함으로써 매번 프리필을 재계산하는 비용을 피합니다. 코딩 에이전트에 필요한 Tool Calling 도 외부 프레임워크가 아닌 엔진에 내장돼 있습니다. 핵심 설계 결정을 아래에 정리했습니다.
한 모델만, 그러나 극한까지 다듬는다. README 는 「GGUF 러너가 아니다, 래퍼가 아니다, 프레임워크가 아니다」라고 명시합니다. 모든 그래프 실행 경로가 DeepSeek V4 Flash 의 MoE 구조에 맞춰져 있어 라우팅 전문가는 강하게 양자화하고 나머지 레이어는 정밀도를 유지할 수 있습니다. 호환성을 우선시하는 범용 러너가 거의 시도하지 않는 선택입니다.
Metal 우선, CUDA 병행, CPU 는 진단 전용. macOS 에서는 make 만 실행하면 Metal 백엔드가 빌드됩니다. Linux 는 make cuda-spark 또는 make cuda-generic 을 사용합니다. README 는 「현재 macOS 의 가상 메모리 구현 결함으로 CPU 경로가 커널 패닉을 일으킬 수 있다」고 경고하므로, Mac 에서는 Metal 외 경로로 추론하지 마십시오.
디스크 KV 캐시 네이티브 지원. ds4-server 시작 시 --kv-disk-dir 와 --kv-disk-space-mb 를 전달하면 KV 상태가 지정 디렉터리에 기록되며 세션 간 재사용됩니다. Mac 내장 SSD 와 결합하면 1M 토큰 컨텍스트가 「매번 프리필 세금」에서 「회수 가능한 비용」으로 바뀝니다.
OpenAI 호환 서버 + 내장 에이전트. ds4-server 는 /v1/chat/completions 을 노출하므로 Cursor, opencode, Claude Code 등 OpenAI 프로토콜 기반 클라이언트에 곧바로 연결할 수 있습니다. Tool Calling 도 네이티브 구현되어 외부 프레임워크 없이 실용적인 코딩 에이전트 루프를 구성할 수 있습니다.
「좁음」이 주는 부수 효과 — 감사 가능성. 프로젝트는 자체 완결되어 외부 런타임을 끌어들이지 않습니다. 코드 양이 범용 스택보다 훨씬 적어 소규모 팀도 그래프 실행과 양자화 판단을 직접 검토할 수 있습니다. 운영 환경에서 대형 모델을 다룰 때 중요한 가산점입니다.
「ds4 는 처음부터 Flash 만을 겨냥했다」는 점을 받아들이면, 다음 절에서 다룰 「PRO 는 ds4 로 옮길 수 없다」는 사실이 자연스럽게 이해됩니다. 자료에서 자주 누락되어 굳이 짚어야 하는 내용입니다.
먼저 모델 스펙입니다. DeepSeek V4 Flash 는 284B 매개변수·13B 활성화 MoE 모델로 BF16 가중치 약 570GB, Q4 양자화 약 150GB, antirez 의 q2 라우팅 양자화 전용 버전은 약 86.7GB 까지 축소됩니다. 따라서 「로드 가능한 하한」은 통합 메모리 96GB, 「실험 가능한 실질 하한」은 128GB 입니다. 반면 DeepSeek V4 PRO 는 1.65T 매개변수·49B 활성화, BF16 약 3.2TB, Q4 양자화도 약 800GB 에 달합니다. 512GB Mac Studio 한 대로는 결코 수용되지 않으며, ds4 메인라인도 현재 PRO 를 지원하지 않습니다. 「512GB Mac 에서 PRO 가 돈다」는 진술은 이 사실로 정정되어야 합니다.
| 통합 메모리 | 대표 기종 / 본체 참고 가격 | ds4 로 가능한 범위 | 실측 속도 참고 | 실용 위치 |
|---|---|---|---|---|
| 96GB | MacBook Pro M3/M4/M5 Max 상위, 본체 약 600 만 원~ | Flash q2 하한 | q2 짧은 프롬프트만 | 로드는 가능, 중간 길이 컨텍스트에서 빠르게 스왑 |
| 128GB | MacBook Pro M3 Max 최상위 또는 Mac Studio M2 Max, 본체 약 800~1,000 만 원 | Flash q2 실험 하한 | q2 짧은 프롬프트: 프리필 약 58.5 t/s, 생성 약 26.7 t/s / 약 11.7k 토큰 긴 프롬프트: 프리필 약 250 t/s | 커뮤니티 합의 실험 하한, Flash q2 상주 가능 |
| 256GB | Mac Studio M2 Ultra 또는 Mac Studio M3 Ultra 중상위, 본체 약 1,100~1,500 만 원 | Flash q4 실용 | q4 짧은 프롬프트 쾌적, 중간 길이 컨텍스트에서 자발적 스왑 없음 | 「Flash 본격 활용」 목표 지점 |
| 512GB | Mac Studio M3 Ultra 최상위, 본체 약 2,000 만 원~ | Flash q4 + 장기 컨텍스트 쾌적 | q4 짧음: 프리필 약 79 t/s, 생성 약 35.5 t/s / q4 긴 프롬프트(약 12k 토큰): 프리필 약 449 t/s, 생성 약 26.6 t/s | 장기 컨텍스트 + 코딩 에이전트 상주에 적합, 그래도 PRO 는 수용 불가 |
놓치기 쉬운 세 가지 디테일을 짚습니다. 첫째, 「가중치가 올라간다」와 「부드럽게 생성된다」는 다릅니다. KV 캐시·컨텍스트 윈도우·기타 시스템 프로세스가 수십 GB 를 잡아먹기 때문에, 96GB 환경에서 100k 토큰을 넘기면 거의 확실히 스왑이 발생합니다. 둘째, q2 와 q4 의 격차는 단순 선형이 아닙니다. 512GB Mac Studio M3 Ultra 실측에서 짧은 프롬프트의 q2 프리필이 q4 보다 살짝 빠르지만(84 t/s 대 79 t/s), 긴 컨텍스트와 Tool Calling 품질에서는 q4 의 안정성과 출력 품질 이점이 분명합니다. 셋째, DGX Spark GB10 128GB 는 CUDA 에서 q2 긴 프롬프트 프리필 약 344 t/s 를 기록하지만 생성은 약 13.7 t/s 에 그칩니다. Mac 의 통합 메모리 구조가 「단일 장비·장기 컨텍스트」 시나리오에서 여전히 분명한 우위를 갖고 있다는 신호입니다.
ds4 가 DeepSeek V4 Flash 의 「로컬 구동」 하한을 96GB 로 내렸지만, 「쓸 만한」 하한은 여전히 256~512GB 입니다. 진짜 비용은 그 장비가 프로젝트 사이클 동안 풀가동 될 수 있느냐에 달려 있습니다.
ds4 가 Metal 을 1 차 백엔드로 둔 이유는 미학이 아니라 공학적 필연입니다. Apple Silicon 의 통합 메모리 아키텍처(UMA) 는 CPU 와 GPU 가 동일한 대형 메모리 풀을 공유하므로 PCIe 버스에서 텐서를 왕복시키는 부담이 없습니다. Flash 처럼 토큰마다 일부 전문가만 활성화되는 MoE 모델에서, UMA 는 「필요한 전문가 가중치만 큰 풀에서 가져오는」 동작을 가능하게 하여 GPU 메모리 상한에 묶이지 않게 합니다. 동일 가격대에서 96GB 부터 512GB 까지 사실상의 VRAM 으로 확보할 수 있는 컨슈머 플랫폼은 존재하지 않습니다.
두 번째 이점은 메모리 대역폭 입니다. M3 Max 계열의 통합 메모리 대역폭은 약 400 GB/s, M3 Ultra 는 약 800 GB/s 로 2 배에 달합니다. ds4 가 Mac Studio M3 Ultra 에서 긴 프롬프트 프리필을 약 449 t/s 까지 끌어올리는 물리적 근거이기도 합니다. 대역폭은 「가중치를 얼마나 빨리 읽느냐」를 결정하며 MoE 추론에서 사실상 단일 병목입니다. Mac 에서는 이 대역폭이 「온전히 GPU 에 주어지므로」 여러 GPU 사이에서 분절되지 않습니다.
세 번째 이점은 자주 간과되지만 ds4 사용 경험에 결정적입니다. macOS 내장 고속 NVMe SSD 는 ds4 의 디스크 KV 캐시와 천연의 궁합을 이룹니다. ds4-server 는 --kv-disk-dir 가 가리키는 디렉터리에 KV 상태를 기록하고 --kv-disk-space-mb 로 최대 점유를 제한합니다. 동일 세션이 재개될 때 수십 초에서 수 분의 프리필을 건너뜁니다. Mac 내장 SSD 의 순차 대역폭은 5~7 GB/s 수준이므로, KV 를 RAM 에 그대로 두는 대안(세션마다 메모리를 한 번 더 잡는)보다 「디스크 보관 + 빠른 재로드」가 더 경제적인 절충입니다.
팁: --kv-disk-dir 는 반드시 Mac 내장 SSD 를 가리키게 하십시오. 외장 USB-C 드라이브의 랜덤 읽기/쓰기는 내장 대비 1/3 수준에 그치는 경우가 많아 KV 재로드 단계가 새 병목이 됩니다. 외장 드라이브는 「과거 세션의 콜드 아카이브」 용도로만 활용하는 편이 안전합니다.
이 세 가지를 결합하면 결론은 명확합니다. 2026 년 컨슈머 하드웨어에서 DeepSeek V4 Flash 와 ds4 라는 「단일 모델 + 장기 컨텍스트 + 디스크 KV」 조합을 돌리기에 Mac 보다 더 적합한 플랫폼은 없습니다. 남은 질문은 단 하나입니다 — 256GB 또는 512GB Mac 을 부담할 수 있는가, 그리고 프로젝트 사이클 동안 그 장비를 풀가동할 수 있는가.
하드웨어 청구서를 프로젝트 사이클과 겹쳐 보면 실무적인 결론이 도출됩니다. 대다수 개발자는 512GB Mac Studio 를 상시 점유할 필요가 없습니다. 초기 탐색에는 128GB Flash q2 면 충분할 수 있습니다. 제품화 단계에서 256GB q4 로 올리고, 장기 컨텍스트나 상주 코딩 에이전트가 필요한 단계에서야 512GB 로 가는 식입니다. 이 「단계 전환」은 클라우드 Mac 노드가 가장 잘하는 영역입니다. 본 장비를 구매하면 단일 단계에 묶이게 됩니다.
| 전형적 역할 | 주로 사용하는 단계 | 전환 빈도 | 최상위 Mac Studio 구매 3 년 TCO | 클라우드 Mac 노드 렌탈 3 년 TCO |
|---|---|---|---|---|
| 독립 개발자·AI 연구자(주당 모델 사용 20 시간 이하) | 주로 128GB Flash q2, 가끔 256GB 실험 | 드물게 상향 | 256GB Mac Studio 약 1,200 만 원, 3 년 감가 포함 약 1,000 만 원 | 주 단위 128GB + 분기별 256GB 전환, 시간 과금 기준 3 년 합산 약 350~600 만 원 |
| 소규모 AI 스타트업(주 30~60 시간, 다중 프로젝트) | 주로 256GB Flash q4, 가끔 512GB 장기 컨텍스트 | 주 단위 전환 | 512GB Mac Studio 약 2,000 만 원, 3 년 감가 포함 약 1,700 만 원 | 월 단위 256GB 상주 + 필요 시 512GB 버스트, 3 년 합산 약 900~1,400 만 원 |
| 코딩 에이전트 헤비 유저(주 60 시간 이상 풀가동) | 주로 512GB Flash q4 장기 컨텍스트 | 전환 거의 없음 | 최상위 Mac Studio 가 가장 경제적, 3 년 안에 충분히 상각 | 월 단위 장기 렌탈, 구매와의 차액 축소되지만 탄력성과 운영 면제 이점 유지 |
| 크로스 리전 팀(여러 지역에서 사용자에 근접) | 지역마다 128~256GB | 지역 병렬 | 여러 대 구매 = 중복 지출, 리전 간 운영 난도 상승 | 리전별 온디맨드 개통, 리전 전환은 주문 단위로 완결 |
이 표가 보여 주는 핵심 결론은 단순합니다. 최상위 Mac Studio 구매는 「512GB 단계를 연중 풀가동」 하는 단일 패턴에서만 진짜 유리 합니다. 대부분의 독립 개발자와 소규모 팀은 그 강도에 닿지 못합니다. 보다 실용적인 경로는 클라우드 노드로 128GB / 256GB / 512GB 중 자기 워크로드를 먼저 확인한 뒤 물리 장비 고정 여부를 결정하는 것입니다. 그 확인이 끝날 무렵에는 대개 클라우드 노드 그대로 운영하는 편이 더 합리적입니다.
주의: 본 장비 구매의 숨은 비용은 본체 가격만이 아닙니다. 전기 요금, 소음, 냉각, 백업 스토리지, 보증 만료 후 수리 리스크, 그리고 가장 중요한 한 가지 — 3 년 안에 Apple Silicon 이 2~3 세대 갱신됩니다. 오늘의 최상위가 3 년 뒤 「중급」에 가까워집니다. 클라우드 노드는 이 감가 곡선을 플랫폼에 위임하게 해 줍니다.
앞 절들에서 제시한 이론을 한 장의 반복 가능한 절차로 압축합니다. 전제는 VpsMesh 클라우드 Mac 노드(최소 128GB, 권장 256GB, 장기 컨텍스트 쾌적이 목표라면 512GB) 입니다. 각 단계마다 명확한 통과/실패 판정 기준을 두었으므로 팀에서 Runbook 으로 그대로 사용할 수 있습니다.
ds4 빌드(Metal 백엔드). git clone https://github.com/antirez/ds4 && cd ds4 && make 를 실행합니다. 결과물은 ./ds4(CLI)와 ./ds4-server(HTTP 서버)입니다. 통과 기준: 두 바이너리가 존재하고 ./ds4 --help 가 헬프를 출력합니다. macOS 에서는 make cpu 를 실행하지 마십시오. CPU 경로가 커널 패닉을 유발할 수 있습니다.
Metal 백엔드 최소 스모크 테스트. 매우 짧은 프롬프트로 ./ds4 -p "Hello" --metal 을 돌려 디바이스 확보와 기본 그래프 동작을 확인합니다. 노드가 128GB 이상이면 곧바로 Flash q2 가중치 로드 단계로 진행할 수 있습니다. 통과 기준: "Metal device not available" 오류 없음, OOM 미발생.
DeepSeek V4 Flash q2 / q4 가중치 다운로드 및 검증. ds4 프로젝트가 지정하는 GGUF 경로에서 받아옵니다(q2 약 86.7GB, q4 약 150GB). SHA256 을 반드시 검증하십시오. KV 와 가중치는 볼륨 분리 합니다. 가중치는 대용량 데이터 디스크(500GB 이상 여유 권장)에, KV 는 Mac 내장 SSD 에 둡니다. 통과 기준: 체크섬 일치, df -h 가 데이터 디스크에 100GB 이상 여유를 보여 줍니다.
디스크 KV 를 켜고 ds4-server 시작. 예시: ./ds4-server --ctx 200000 --kv-disk-dir /Volumes/ssd-kv/ds4-kv --kv-disk-space-mb 16384 --bind 127.0.0.1:8080. 컨텍스트 윈도우는 200k 로 시작하고 처음부터 1M 을 열지 마십시오. 통과 기준: 시작 로그에 Metal 준비 완료와 KV 디렉터리 쓰기 가능이 표시되고, curl http://127.0.0.1:8080/v1/models 가 JSON 을 반환합니다.
Cursor / opencode / Claude Code 호환 클라이언트 연결. 클라이언트의 base URL 을 ds4-server 로 가리키게 합니다. 원격 8080 을 로컬 127.0.0.1:8080 으로 SSH 터널로 포워딩하십시오(8080 을 0.0.0.0 으로 공개 금지). Authorization 헤더는 시작 인자에 맞게 설정하고, 모델 이름은 ds4 프로젝트 최신 문서를 따릅니다. 통과 기준: 짧은 스트리밍 요청이 /v1/chat/completions 에서 200 OK 를 반환합니다.
관측과 롤백 조건 설정. vm_stat / memory_pressure / iostat 로 메모리 압력과 SSD 쓰기를 관찰합니다. 발화 조건은 스왑 지속 고점, 프리필 속도가 기준치의 50% 미만으로 하락, KV 디렉터리 점유가 --kv-disk-space-mb 의 80% 초과일 때 클라우드 API(OpenAI / Anthropic / 공식 DeepSeek)로 자동 폴백입니다. 통과 기준: 동일 입력에서 폴백 경로가 비교 가능한 결과를 반환합니다.
ssh -L 8080:127.0.0.1:8080 vpsmesh-mac-node \
'./ds4-server \
--ctx 200000 \
--kv-disk-dir /Volumes/ssd-kv/ds4-kv \
--kv-disk-space-mb 16384 \
--bind 127.0.0.1:8080'
curl -sS http://127.0.0.1:8080/v1/chat/completions \
-H "Authorization: Bearer $DS4_TOKEN" \
-H "Content-Type: application/json" \
-d '{"model":"deepseek-v4-flash-q4","messages":[{"role":"user","content":"hello"}],"stream":false}' \
| jq .
운영 투입 전 팀 README 에 박아 둘 만한 3 개 데이터 포인트:
--kv-disk-space-mb 는 16GB 부터 시작하고, 장기 컨텍스트 세션 1 개당 약 1~3GB 를 잡아 보관 수를 계산합니다. 반드시 Mac 내장 SSD 를 사용하십시오. 외장 드라이브에서는 KV 재로드가 새 병목이 됩니다.「256/512GB Mac Studio 구매 vs 클라우드 Mac 노드 렌탈로 ds4 운영」을 저울질할 때는 다음 두 항목을 비교표에 반드시 포함하십시오. ① 본 장비의 숨은 청구서(전기 요금, 소음, 냉각, 보증 만료 후 수리 리스크, Apple Silicon 이 3 년 안에 2~3 세대 갱신되며 가속되는 감가). ② 자체 호스팅의 운영 비용(재부팅 후 ds4-server 데몬화, 디스크 KV 수위 점검, Cursor / opencode 링크 자가 치유). 모두 「코딩」 본연의 가치에 속하지 않지만, 시간을 꾸준히 갉아먹습니다. 「기계 보살피기」가 아닌 「모델 돌리고 코드 쓰기」에 시간을 쏟고 싶은 독립 개발자·연구자·소규모 팀에게는, 96 / 128 / 256 / 512GB 를 수요에 따라 전환할 수 있는 VpsMesh 고메모리 클라우드 Mac 노드가 현실적이면서도 경제적인 선택지 입니다. 먼저 1 주일치 128GB 로 Flash q2 적합성을 검증하고, 1 개월치 256GB 로 Cursor 와 코딩 에이전트의 체감을 끌어올린 다음, 마지막에 512GB 상주 여부를 판단하는 단계적 접근은 처음부터 2,000 만 원 규모의 Mac Studio 를 사들이는 것보다 훨씬 위험이 낮습니다.
실행할 수 없습니다. ds4 메인라인은 DeepSeek V4 Flash 전용 입니다. Flash 는 284B 매개변수·13B 활성화 MoE 모델이고, PRO 는 1.65T 매개변수·49B 활성화로 BF16 약 3.2TB, Q4 도 약 800GB 이므로 512GB Mac 통합 메모리에 들어가지 않습니다. PRO 는 멀티 GPU 클러스터가 필요하며 ds4 와 단일 Mac 의 적용 범위 밖입니다. Flash 운영이 목적이라면 VpsMesh 요금 페이지 에서 128GB 이상의 Mac 노드를 선택하십시오.
q2 양자화의 「로드만 가능한」 최저선일 뿐입니다. 긴 컨텍스트나 동시 요청에서 스왑이 빠르게 발생하며 100k 토큰을 넘기면 체감이 크게 떨어집니다. 실험 하한은 128GB, q4 와 중간 길이 컨텍스트로 스왑 없이 일할 수 있는 첫 실용 목표는 256GB, 장기 컨텍스트와 상주 에이전트의 쾌적 구간은 512GB 입니다. 실현 가능성만 검증한다면 96GB 노트북을 사는 것보다 128GB 클라우드 노드를 2 주 빌리는 편이 훨씬 안전합니다.
단순화한 기준으로 「512GB 단계를 주당 30 시간 이상, 2 년 이상 안정적으로 풀가동」 할 수 있을 때 최상위 Mac Studio 구매가 본전을 회수합니다. 그 이하 강도라면 사용량 기반 렌탈이 더 경제적입니다. 단계별 용량 계획은 VpsMesh 고객 센터 의 설명을 참고하거나, 실제 워크로드에 맞춘 시험 노드 개통은 주문 페이지 에서 바로 진행할 수 있습니다.
가능합니다. ds4-server 는 /v1/chat/completions 을 노출하며 OpenAI 프로토콜과 호환됩니다. 클라이언트의 base URL 을 ds4-server 의 리슨 주소로 가리키고, 시작 인자에 맞춰 토큰과 컨텍스트 윈도우를 설정하면 됩니다. 운영에서는 반드시 127.0.0.1 에 바인딩하고 외부 접근은 SSH 터널이나 사설 네트워크로만 허용하며 0.0.0.0 직접 노출은 피하십시오. SSH 터널 템플릿과 롤백 조건은 본문 §05 의 최소 절차와 예시 명령에 정리되어 있습니다.