2026 年 DeepSeek V4 Flash をローカル実行する:antirez ds4 の本当のハードウェア要件と 96 / 128 / 256 / 512 GB Mac クラウドノードの切替戦略

antirez の新スタック · 統一メモリの実費 · 3 階層レンタル判断 · ds4-server 立ち上げチェックリスト

Apple Silicon イメージ — ds4 エンジンによる DeepSeek V4 Flash ローカル推論

Redis 作者の antirez 氏が約 1 週間で C で書き上げた ds4(DwarfStar 4) によって、DeepSeek V4 Flash が単一の Mac で実用的に動くようになりました。ただし、必要となるのは 統一メモリ 96 GB の Mac が下限、512 GB でようやく快適圏 という強烈なハードウェアであり、本体価格は日本円で約 60 万円から 200 万円以上に及びます。本記事では、個人開発者・AI 研究者・小規模チームに対して、次の 3 点を提供します。① ds4 と DeepSeek V4 Flash の現実的なハードウェア要件を整理し、「PRO も 512 GB Mac で動く」という誤解を訂正します。② 96 / 128 / 256 / 512 GB の 4 階層について、用途別の切替判断マトリクスと 3 年 TCO の概算を示します。③ VpsMesh のクラウド Mac ノード上で ds4 を立ち上げる最小手順と、Cursor / opencode への接続チェックリストを提供します。

01

ds4 とは:なぜ antirez 氏は汎用 GGUF ランナーではなく DeepSeek V4 Flash 専用エンジンを作ったのか

ds4 は DwarfStar 4 の略で、作者は Redis を生み出した Salvatore Sanfilippo(antirez)氏です。これは llama.cpp のラッパーでも、汎用 GGUF ローダーでも、もう一つの Web UI でもありません。DeepSeek V4 Flash 専用に設計されたネイティブ推論エンジンであり、主要バックエンドは macOS の Metal と Linux の CUDA(DGX Spark を含む)の 2 つのみです。AMD ROCm は別ブランチで維持されています。この「狭くて深い」設計判断こそが、ds4 が公開後わずか数日で 1 万を超える GitHub Star を獲得し、汎用ランナーには出せない数値を叩き出している根本理由です。

対象を絞ったことで、これまで本機推論が曖昧にしていた事柄を ds4 は正面から解決しています。DeepSeek V4 の MoE ルーティングに対して、ルーティング専門家層のみを 2-bit まで強く量子化し、他の層は精度を保つ「選択的量子化」を実装しています。1M トークンのコンテキストを一級市民として扱い、KV キャッシュをディスクへ遅延書き出しすることで毎回のプリフィル再計算を回避します。コーディングエージェントに必要な Tool Calling も、外付けフレームワークではなくエンジン本体に組み込まれています。以下に主要な設計判断を整理します。

  1. 01

    1 つのモデルに絞り込み、限界まで追い込む。README は「GGUF ランナーではない、ラッパーではない、フレームワークではない」と明示しています。すべてのグラフ実行パスが DeepSeek V4 Flash の MoE 構造に最適化されているため、ルーティング専門家層を強く量子化しつつ他層の精度は維持できます。互換性を重視する汎用ランナーが避ける選択肢です。

  2. 02

    Metal 優先、CUDA 並走、CPU は診断のみ。macOS では make で Metal バックエンドが生成されます。Linux では make cuda-spark または make cuda-generic を使用します。README には「現行 macOS の仮想メモリ実装上、CPU パスでカーネルパニックを起こす可能性がある」との警告があるため、Mac では Metal バックエンド以外で推論しないでください。

  3. 03

    ディスク KV キャッシュをネイティブ対応。ds4-server 起動時に --kv-disk-dir--kv-disk-space-mb を渡すと、KV 状態が指定ディレクトリに書き出され、セッション間で再利用できます。Mac 内蔵 SSD と組み合わせれば、1M トークンのコンテキストが「毎回のプリフィル税」ではなく「回収可能なコスト」に変わります。

  4. 04

    OpenAI 互換サーバとエージェント内蔵。ds4-server は /v1/chat/completions を公開しているため、Cursor、opencode、Claude Code など OpenAI プロトコルを使うクライアントに直接接続できます。Tool Calling もネイティブ実装で、外部フレームワーク不要で実用的なコーディングエージェントを構築できます。

  5. 05

    「狭さ」がもたらす副次効果——監査可能性。プロジェクトは自己完結しており、第三者ランタイムを持ち込みません。コード量は汎用スタックを大きく下回り、小規模チームでもグラフ実行と量子化判断を追跡可能です。本番環境で大型モデルを扱う際の重要な利点となります。

「ds4 が Flash 専用設計である」ことを理解すれば、次節で扱う「PRO を 512 GB Mac で動かす」という誤解の訂正は自然に飲み込めます。意外と見落とされがちな事実ですので、丁寧に整理していきます。

02

DeepSeek V4 Flash の現実的なハードウェア要件:96 / 128 / 256 / 512 GB 4 階層比較と「PRO が 512 GB で動く」という誤解の訂正

まずモデル仕様を整理します。DeepSeek V4 Flash は 284B パラメータ・13B 活性化の MoE モデルで、BF16 重みは約 570 GB、Q4 量子化で約 150 GB、antirez 氏の q2 ルーティング量子化版で約 86.7 GB まで縮みます。したがって 「ロード可能な下限」は統一メモリ 96 GB、実験的に常用できる下限は 128 GB です。一方 DeepSeek V4 PRO は 1.65T パラメータ・49B 活性化、BF16 で約 3.2 TB、Q4 量子化でも約 800 GB あり、512 GB の Mac Studio にすら収まりません。ds4 のメインラインも現時点で PRO 非対応です。「512 GB Mac で PRO を動かせる」という言説はこの事実で訂正されるべきです。

統一メモリ代表機種 / 本体価格目安ds4 で動く範囲実測速度の参考実用上の位置づけ
96 GBMacBook Pro M3/M4/M5 Max 上位、本体約 60 万円〜Flash q2 下限q2 短プロンプトのみロードは可能、中程度のコンテキストで容易にスワップ
128 GBMacBook Pro M3 Max 最上位 / Mac Studio M2 Max、本体約 80〜100 万円Flash q2 実験的下限q2 短プロンプト:プリフィル約 58.5 t/s、生成約 26.7 t/s / 約 11.7k トークン長プロンプト:プリフィル約 250 t/sコミュニティ公認の実験的下限、Flash q2 常駐可能
256 GBMac Studio M2 Ultra / Mac Studio M3 Ultra 中位、本体約 110〜150 万円Flash q4 実用q4 短プロンプト快適、中規模コンテキストで主体的にスワップせず「Flash を真面目に使う」目標ライン
512 GBMac Studio M3 Ultra 最上位、本体約 200 万円〜Flash q4 + 長コンテキスト快適圏q4 短:プリフィル約 79 t/s、生成約 35.5 t/s / q4 長(約 12k トークン):プリフィル約 449 t/s、生成約 26.6 t/s長コンテキスト+エージェント常駐に最適、それでも PRO は収まらず

見落とされがちな細部を 3 つ補足します。第一に、「重みが乗る」と「快適に生成できる」は別物です。KV キャッシュ、コンテキストウィンドウ、その他のシステムプロセスで数十 GB は容易に消費されます。96 GB では 100k トークンを超えた時点でほぼ確実にスワップが発生します。第二に、q2 と q4 の差は単純な線形ではありません。512 GB の Mac Studio M3 Ultra での実測では、短プロンプトの q2 プリフィルが q4 をわずかに上回りますが(84 t/s 対 79 t/s)、長コンテキストや Tool Calling 品質では q4 が明確に勝ります。第三に、DGX Spark GB10 128 GB は CUDA で q2 長プロンプトのプリフィル約 344 t/s を記録しますが、生成は約 13.7 t/s にとどまります。これは Mac の統一メモリアーキテクチャが「単機・長コンテキスト」というシナリオで明確な優位を持つことを示しています。

ds4 は DeepSeek V4 Flash を「ローカルで走らせる」下限を 96 GB まで引き下げましたが、「使い物になる」基準は依然として 256〜512 GB です。本当のコストは、その機材を案件サイクルで使い切れるかどうかにあります。

03

なぜ Mac でなければならないのか:統一メモリ、帯域幅、そして ds4 のディスク KV キャッシュとの「親和性」

ds4 が Metal を第一バックエンドに据えたのは美学ではなく工学的必然です。Apple Silicon の統一メモリアーキテクチャ(UMA)では、CPU と GPU が同一の大容量メモリプールを共有するため、VRAM と RAM の間で PCIe バスを往復する負担がありません。Flash のような MoE モデルではトークンごとに一部の専門家のみが活性化されるため、UMA は「必要な専門家の重みだけ大プールから読み込む」動作を可能にし、GPU の VRAM 上限に縛られません。同価格帯で 96 GB〜512 GB を「事実上の VRAM」として確保できる消費者向けプラットフォームは他に存在しません。

第二の利点は メモリ帯域幅 です。M3 Max 系の統一メモリ帯域は約 400 GB/s、M3 Ultra は約 800 GB/s と倍増します。これが、Mac Studio M3 Ultra 上で ds4 が長プロンプトのプリフィルを約 449 t/s まで押し上げる物理的根拠です。MoE 推論において帯域はほぼ単点ボトルネックであり、Mac ではこの帯域が「丸ごと GPU に与えられる」ため、複数の GPU 間で分断されることもありません。

第三の利点は見落とされがちですが、ds4 の体験には決定的に効きます。macOS 内蔵の高速 NVMe SSD と ds4 のディスク KV キャッシュは天然の相性を持ちます。ds4-server は --kv-disk-dir で指定されたディレクトリに KV 状態を書き出し、--kv-disk-space-mb で最大容量を制限します。同一セッション再開時には、数十秒から数分のプリフィルを省略できます。Mac 内蔵 SSD のシーケンシャル帯域は 5〜7 GB/s であり、「KV を RAM に常駐させ続ける」よりも「ディスクに退避+高速再ロード」の方が経済的な折衷案となります。

i

ヒント:--kv-disk-dir は必ず Mac 内蔵 SSD を指してください。外付け USB-C ドライブのランダム読み書きは内蔵の約 1/3 になることが多く、KV 再ロードが新たなボトルネックになります。外付けドライブは「過去セッションのコールド保管」に限定するのが妥当です。

これら 3 点を統合すると結論は明快です。2026 年の消費者向けハードウェアにおいて、DeepSeek V4 Flash と ds4 のような「単一モデル+長コンテキスト+ディスク KV」の組み合わせを動かすのに、Mac 以上に適したプラットフォームは存在しません。残された問題は、256 GB あるいは 512 GB の Mac を購入できるか、そしてそれを案件サイクルで使い切れるか、その 1 点に集約されます。

04

買えないなら借りる:96 / 128 / 256 / 512 GB 3 階層切替の判断マトリクスと 3 年 TCO 概算

ハードウェア費用を案件サイクルに重ね合わせると、より実践的な結論が見えてきます。多くの開発者は 512 GB の Mac Studio を常時占有する必要がありません。初期調査は 128 GB の Flash q2 で十分かもしれません。製品化フェーズで 256 GB の q4 に上げ、超長コンテキストや常駐コーディングエージェントの段階で初めて 512 GB が必要になります。この「階層切替」こそが、クラウド Mac ノードの得意領域です。本機を購入してしまうと、ある一つの階層に固定されてしまいます。

典型的なロール主用階層切替頻度最上位 Mac Studio 購入の 3 年 TCOクラウド Mac ノード賃借の 3 年 TCO
個人開発者・AI 研究者(週 20 時間以下)主に 128 GB Flash q2、たまに 256 GB 実験稀に階層変更256 GB Mac Studio 約 120 万円、3 年で減価込み約 100 万円週単位で 128 GB + 四半期で 256 GB に切替、時間課金で 3 年計 約 35〜60 万円
小規模 AI スタートアップ(週 30〜60 時間、複数案件並行)主に 256 GB Flash q4、時に 512 GB 長コンテキスト週単位で切替512 GB Mac Studio 約 200 万円、3 年で減価込み約 170 万円月単位で 256 GB 常駐 + 必要時に 512 GB バースト、3 年計 約 90〜140 万円
コーディングエージェント重ユーザ(週 60 時間以上)主に 512 GB Flash q4 長コンテキスト切替ほぼなし最上位 Mac Studio が最も経済的、3 年でしっかり償却月単位の長期賃借、購入との差が縮まるが弾力性と運用免除の利点を維持
クロスリージョン体制(複数地域でユーザに近接)地域ごとに 128〜256 GB地域並行複数台購入 = 重複支出、地域横断の運用が困難地域別にオンデマンド開通、地域切替は発注操作で完結

この表が示唆する核心的な結論は明確です。最上位 Mac Studio の買い切りは、「512 GB 階層を年間通して使い切る」という単一の運用パターンでのみ真に有利であり、これは大多数の個人開発者・小規模チームには到達不可能な使用強度です。より現実的な道筋は、まずクラウドノードで 128 GB / 256 GB / 512 GB の中から実際の使用状況を確認し、その上で本機を固定するか判断することです。「確認」の段階が完了する頃には、多くの場合クラウドノードのままで十分という結論に至ります。

!

注意:本機購入の隠れたコストは本体価格に留まりません。電力、騒音、冷却、バックアップストレージ、保証切れ後の修理リスク、そして最も重要なのは 3 年間で Apple Silicon が 2〜3 世代更新される 点です。今日の最上位は 3 年後には「中位」に近づきます。クラウドノードを利用すれば、この減価カーブをプラットフォームに引き受けてもらえます。

05

VpsMesh クラウド Mac ノードで ds4 を最小構成で立ち上げる 6 ステップと Cursor 接続手順

これまでの理論をすべて反復可能な手順に落とし込みます。前提は VpsMesh クラウド Mac ノード(最低 128 GB、推奨 256 GB、長コンテキスト快適化なら 512 GB)です。各ステップに合否判定基準を明記しているため、チームでそのまま Runbook として再利用できます。

  1. 01

    ds4 をビルドする(Metal バックエンド)。git clone https://github.com/antirez/ds4 && cd ds4 && make を実行します。生成物は ./ds4(CLI)と ./ds4-server(HTTP サーバ)です。合格判定:両バイナリが存在し、./ds4 --help がヘルプを返すこと。macOS では make cpu は実行しないでください(カーネルパニックの可能性)。

  2. 02

    Metal バックエンドの最小スモークテスト。非常に短いプロンプトで ./ds4 -p "Hello" --metal を実行し、デバイス取得と基本グラフ動作を確認します。ノードが 128 GB 以上ならそのまま次の Flash q2 重みロードに進めます。合格判定:「Metal device not available」エラーが出ない、OOM が発生しない。

  3. 03

    DeepSeek V4 Flash q2 / q4 重みをダウンロードして検証する。ds4 プロジェクトの指定 GGUF パスから入手します(q2 は約 86.7 GB、q4 は約 150 GB)。必ず SHA256 を検証してください。KV と重みは別ボリュームに配置し、重みは大容量データディスク(500 GB 以上の空きを推奨)、KV は Mac 内蔵 SSD に置きます。合格判定:チェックサム一致、df -h でデータディスクに 100 GB 以上の余裕があること。

  4. 04

    ディスク KV を有効にして ds4-server を起動する。例:./ds4-server --ctx 200000 --kv-disk-dir /Volumes/ssd-kv/ds4-kv --kv-disk-space-mb 16384 --bind 127.0.0.1:8080。コンテキストウィンドウは 200k から始め、初回からいきなり 1M を開かないでください。合格判定:起動ログに Metal 準備完了と KV ディレクトリ書込可能が表示され、curl http://127.0.0.1:8080/v1/models が JSON を返すこと。

  5. 05

    Cursor / opencode / Claude Code 互換クライアントを接続する。クライアントの base URL を ds4-server に向けます。SSH トンネルでリモートの 8080 をローカルの 127.0.0.1:8080 へ転送してください(8080 を 0.0.0.0 で公開しないこと)。Authorization ヘッダは起動引数に合わせて設定し、モデル名は ds4 プロジェクトの現行ドキュメントに従います。合格判定:短いストリーミングリクエストが /v1/chat/completions で 200 OK を返すこと。

  6. 06

    監視とロールバック条件を設定する。vm_stat / memory_pressure / iostat でメモリ圧と SSD 書込を観察します。発火条件として、スワップが高止まり、プリフィル速度が基準値の 50% を下回る、または KV ディレクトリ占有が --kv-disk-space-mb の 80% を超える場合に、クラウド API(OpenAI / Anthropic / 公式 DeepSeek)へ自動フォールバックします。合格判定:ロールバック経路が同一入力に対して比較可能な結果を返すこと。

bash
ssh -L 8080:127.0.0.1:8080 vpsmesh-mac-node \
  './ds4-server \
     --ctx 200000 \
     --kv-disk-dir /Volumes/ssd-kv/ds4-kv \
     --kv-disk-space-mb 16384 \
     --bind 127.0.0.1:8080'

curl -sS http://127.0.0.1:8080/v1/chat/completions \
  -H "Authorization: Bearer $DS4_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"model":"deepseek-v4-flash-q4","messages":[{"role":"user","content":"hello"}],"stream":false}' \
  | jq .

本番投入前にチーム README に貼り付けておきたい 3 つのデータポイント:

  • スループット基準値:Mac Studio M3 Ultra 512 GB での q4 長プロンプト(約 12k トークン)はプリフィル約 449 t/s・生成約 26.6 t/s、MacBook Pro M3 Max 128 GB での q2 長プロンプト(約 11.7k トークン)はプリフィル約 250 t/s・生成約 21.5 t/s。各ノードの健全性確認に使えます。
  • メモリ予算:q2 重み約 86.7 GB + 200k トークン KV 約 8〜14 GB + システム約 8 GB = 約 110 GB が起点。96 GB ノードは「極短コンテキスト」専用、128 GB が実質的な実験下限、256 GB で初めて KV と並行セッションに余裕が生まれます。
  • ディスク KV のサイジング:--kv-disk-space-mb は 16 GB を起点とし、長コンテキストの 1 セッションあたり約 1〜3 GB を見込んで保持数を計算します。必ず Mac 内蔵 SSD を使用してください。外付けドライブでは KV 再ロードが新たなボトルネックとなります。

「256/512 GB Mac Studio を購入するか、クラウド Mac ノードを借りて ds4 を動かすか」を検討する際は、次の 2 点を必ず比較表に含めてください。① 本機購入の隠れたコスト(電気代、騒音、冷却、保証切れ後の修理リスク、Apple Silicon が 3 年で 2〜3 世代更新されることに伴う減価加速)。② 自前運用の運用コスト(再起動後の ds4-server デーモン化、ディスク KV 水位巡回、Cursor や opencode リンクの自動回復)。これらは「コードを書く」という本来の付加価値には含まれませんが、確実に時間を奪っていきます。「機材の世話」ではなく「モデルを動かしコードを書く」ことに時間を集中したい個人開発者・研究者・小規模チームにとって、VpsMesh の高メモリクラウド Mac ノードを 96 / 128 / 256 / 512 GB の中で需要に応じて切り替えて使うやり方は、現実的かつ経済的な選択肢です。まず 1 週間 128 GB で Flash q2 の適合性を確認し、次に 1 ヶ月 256 GB で Cursor とコーディングエージェントの操作感を確かめ、最後に 512 GB の常駐ノードを契約するかを判断する。この段階的アプローチは、200 万円規模の Mac Studio を最初から購入するよりはるかに低リスクです。

FAQ

よくある質問

いいえ。ds4 のメインラインは DeepSeek V4 Flash 専用です。Flash は 284B パラメータ・13B 活性化の MoE モデルですが、PRO は 1.65T パラメータ・49B 活性化で、BF16 約 3.2 TB、Q4 でも約 800 GB と、512 GB Mac の統一メモリには収まりません。PRO を動かしたい場合は複数 GPU クラスタが必要で、ds4 と単体 Mac の対象外です。Flash の運用に絞るなら VpsMesh 料金ページ から 128 GB 以上の Mac ノードをお選びください。

q2 量子化が「ロードできる」最低ラインに過ぎません。長いコンテキストや並行リクエストですぐにスワップが発生し、100k トークンを超えると体感が大きく劣化します。実験的下限は 128 GB、q4 で中程度のコンテキストを扱える実用ラインは 256 GB、長コンテキスト+常駐エージェントを快適に運用できるのは 512 GB です。実現性の確認だけなら、96 GB の MacBook を購入するより 128 GB のクラウドノードを 2 週間借りる方がはるかに安全です。

単純化した基準として 「512 GB 階層を週 30 時間以上、2 年以上にわたり安定して使い切れる」 ならば最上位 Mac Studio の購入が割安です。それ以下の使用強度では、用途に応じたレンタルの方が経済的です。階層別の容量計画は VpsMesh ヘルプセンター をご参照いただくか、実運用に合わせた試用ノード開通は 注文ページ から直接行ってください。

はい、可能です。ds4-server は /v1/chat/completions を公開しており OpenAI 互換です。クライアントの base URL を ds4-server に向け、起動引数に合わせてトークンとコンテキストウィンドウを設定するだけです。本番では必ず 127.0.0.1 にバインドし、外部からは SSH トンネルや私設ネットワーク経由でのみ到達できるようにし、0.0.0.0 への直接公開は避けてください。具体的な SSH トンネルテンプレートとロールバック条件は本文 §05 の最小立ち上げチェックリストとサンプルコマンドをご覧ください。