2026: DeepSeek V4 Flash lokal mit antirez ds4 — echte Hardwarekosten auf 96 / 128 / 256 / 512 GB Macs und eine Entscheidungsmatrix fuer Mac-Cloud-Mieten

Antirez neue Stack · Unified-Memory-Rechnung · Drei-Stufen-Mietmatrix · ds4-server-Startcheckliste

Apple-Silicon-Render — ds4-Engine und DeepSeek V4 Flash lokale Inferenz

Redis-Autor antirez hat ds4 (DwarfStar 4) in etwa einer Woche in C geschrieben und damit DeepSeek V4 Flash erstmals praktikabel auf einem einzelnen Mac lauffaehig gemacht. Der Haken ist die Hardwarerechnung: 96 GB Unified Memory sind die Untergrenze, 256 GB werden ernsthaft, 512 GB sind die Komfortzone. Listenpreise liegen zwischen rund 4.000 und ueber 14.000 US-Dollar. Dieser Artikel liefert unabhaengigen Entwicklern, Forscherinnen und kleinen Teams drei Bausteine: erstens eine ehrliche Hardwarerechnung fuer ds4 plus Flash sowie eine Korrektur zur Behauptung, dass PRO auf einem 512-GB-Mac laeuft; zweitens eine gestaffelte Entscheidungsmatrix fuer 96 / 128 / 256 / 512 GB Mac-Cloud-Knoten samt einer Drei-Jahres-TCO-Skizze; drittens eine minimal lauffaehige Startcheckliste fuer ds4 auf einem VpsMesh-Cloud-Mac-Knoten inklusive Cursor- und opencode-Anbindung.

01

Was ds4 wirklich ist: warum antirez keinen weiteren generischen GGUF-Runner geschrieben hat

ds4, kurz fuer DwarfStar 4, stammt von Salvatore Sanfilippo (antirez), dem Redis-Autor. Es ist kein Wrapper um llama.cpp, kein generischer GGUF-Loader und kein weiteres Web-UI. Es ist eine native Inferenz-Engine, die ausschliesslich fuer DeepSeek V4 Flash gebaut wurde. Die primaeren Backends sind Metal auf macOS und CUDA auf Linux, inklusive DGX Spark. AMD ROCm wird in einem getrennten Branch gepflegt. Diese bewusste Verengung ist der Grund, warum ds4 binnen Tagen zehntausende GitHub-Stars erhielt und Zahlen erreicht, die generische Runner nicht halten koennen.

Der enge Fokus bringt belastbare Vorteile. ds4 kontrolliert die MoE-Routing-Pipeline von DeepSeek V4 vollstaendig und kann die Routing-Experten aggressiv auf 2-Bit quantisieren, waehrend der Rest des Graphen hoehere Praezision behaelt. Das 1-Mio.-Token-Kontextfenster wird als First-Class-Konzept behandelt, mit ausgelagertem KV-Cache auf Festplatte statt einer Prefill-Wiederholung in jeder Sitzung. Die Engine bringt einen Tool-Calling-Loop und einen Coding-Agent nativ mit, statt sie als zusaetzliches Framework aufzusetzen. Die Liste unten fasst die Designentscheidungen zusammen.

  1. 01

    Ein Modell, kompromisslos optimiert. Die README ist explizit: ds4 ist kein GGUF-Runner, kein Wrapper, kein Framework. Jeder Graphenpfad ist auf die DeepSeek-V4-Flash-MoE-Struktur zugeschnitten, sodass Routing-Experten aggressiv quantisiert werden koennen, waehrend der Rest die Praezision behaelt. Generische Runner machen das aus Kompatibilitaetsgruenden kaum.

  2. 02

    Metal zuerst, CUDA parallel, CPU nur als Diagnose. Auf macOS baut make. Auf Linux nimmt man make cuda-spark oder make cuda-generic. Die README warnt, dass das aktuelle macOS-VM-Verhalten den CPU-Pfad zum Kernel-Panic bringen kann; deshalb auf Macs niemals Inferenz ohne Metal versuchen.

  3. 03

    Disk-KV-Cache eingebaut. Beim Start von ds4-server uebergibt man --kv-disk-dir und --kv-disk-space-mb. Der KV-Zustand wird in dieses Verzeichnis persistiert und ueber Sitzungen hinweg wiederverwendbar. Zusammen mit der internen SSD eines Macs wird das 1-Mio.-Token-Kontextfenster aus einer Dauerlast zu rueckholbaren Kosten.

  4. 04

    OpenAI-kompatibler Server mit eingebautem Agent. ds4-server stellt /v1/chat/completions bereit, sodass Cursor, opencode, Claude Code oder beliebige OpenAI-Protokoll-Clients direkt darauf zeigen koennen. Tool Calling ist nativ und ermoeglicht einen produktiven Coding-Agent-Loop ohne externes Framework.

  5. 05

    Klein und damit auditierbar. Das Projekt ist self-contained und zieht keine Drittlaufzeit hinein. Der Code ist klein genug, dass ein Team die Graphausfuehrung und die Quantisierungsentscheidungen pruefen kann. Fuer den Produktivbetrieb grosser Modelle ist das ein klarer Vorteil.

Sobald man akzeptiert, dass ds4 bewusst Flash-only ist, folgt der naechste Abschnitt natuerlich. Die haeufige Behauptung, dass PRO auf einem 512-GB-Mac-Studio laeuft, ist sachlich falsch und gehoert geradegerueckt — gerade weil sie immer wieder auftaucht.

02

Die ehrliche Hardwarerechnung: 96 / 128 / 256 / 512 GB im Vergleich und warum PRO auf 512 GB ein Irrtum ist

Zuerst die Modell-Specs. DeepSeek V4 Flash ist ein MoE mit 284 Mrd. Parametern und 13 Mrd. aktivierten pro Token. BF16-Gewichte umfassen rund 570 GB. Q4-Quantisierung bringt die Dateigroesse in den 150-GB-Bereich. Die antirez-q2-Variante liegt nahe 86,7 GB. Deshalb ist 96 GB die Untergrenze, bei der das Modell ueberhaupt laedt, und 128 GB die realistische Laborgrenze in der Community. DeepSeek V4 PRO ist eine andere Klasse: 1,65 Bio. Parameter und 49 Mrd. aktivierte, rund 3,2 TB in BF16 und etwa 800 GB selbst in Q4. Das passt in keinen 512-GB-Unified-Memory-Mac und ds4 zielt darauf bewusst nicht.

Unified MemoryTypischer Mac / ListenpreisWas ds4 leisten kannReferenzgeschwindigkeitPraktische Rolle
96 GBMacBook Pro M3/M4/M5 Max Top-Spec, ab ca. 4.000 USDFlash q2 Untergrenzenur kurze Prompts in q2laedt; Swap kommt schnell bei mittlerem Kontext
128 GBMacBook Pro M3 Max Max-Spec oder Mac Studio M2 Max, ca. 5.000–6.500 USDFlash q2 Laborgrenzeq2 prefill ca. 58,5 t/s, Generation ca. 26,7 t/s bei kurzem Prompt; ca. 250 t/s prefill bei einem 11,7k-Token-Promptvon der Community akzeptierte Laborgrenze; q2 dauerhaft betreibbar
256 GBMac Studio M2 Ultra oder M3 Ultra Mid-Spec, ca. 7.500–10.000 USDFlash q4 praxistauglichq4 mit kurzen Prompts fluessig; mittlerer Kontext erzwingt keinen Swapdas ernsthafte Ziel fuer Flash
512 GBMac Studio M3 Ultra Top-Spec, ab ca. 14.000 USDFlash q4 + lange Kontexte komfortabelq4 kurz: prefill ca. 79 t/s, Generation ca. 35,5 t/s; q4 mit ca. 12k Token: prefill ca. 449 t/s, Generation ca. 26,6 t/slange Kontexte und ein dauerhaft laufender Coding-Agent; PRO passt trotzdem nicht

Drei Details verdienen einen eigenen Satz. Gewichte unterzubringen ist nicht dasselbe wie fluessig zu generieren. KV-Cache, Kontextfenster und Systemprozesse koennen zweistellige GB-Werte verbrauchen. Bei 96 GB beginnt das Swapping spaetestens jenseits von etwa 100k Token. Der Abstand zwischen q2 und q4 ist nicht linear. Auf einem 512-GB-Mac-Studio ist q2 bei kurzem Prompt im Prefill leicht schneller als q4 (ca. 84 t/s gegenueber 79 t/s), q4 gewinnt jedoch deutlich bei langen Kontexten und Tool-Calling-Qualitaet. Der DGX Spark GB10 mit 128 GB unter CUDA liefert ca. 344 t/s prefill bei einem 7k-Token-q2-Prompt, aber nur ca. 13,7 t/s Generation; das zeigt, dass die Mac-Unified-Memory-Architektur fuer Single-Box-Lange-Kontexte weiterhin einen Sweet Spot besitzt.

ds4 senkt die Eintrittsschwelle fuer DeepSeek V4 Flash auf 96 GB, doch die Komfortgrenze bleibt bei 256–512 GB. Die echten Kosten entstehen dort, wo die Maschine den Projektzyklus hindurch ausgelastet werden muss.

03

Warum es ein Mac sein muss: Unified Memory, Bandbreite und der Disk-KV-Cache

ds4 setzt Metal aus technischen Gruenden zuerst ein, nicht aus Geschmack. Apple Silicon Unified Memory (UMA) teilt einen Pool zwischen CPU und GPU. Es gibt keinen PCIe-Roundtrip, der Tensoren zwischen VRAM und Systemspeicher schiebt. Fuer ein MoE-Modell wie Flash, bei dem pro Token nur ein Teil der Experten aktiviert wird, kann die Engine die benoetigten Gewichte aus einem grossen gemeinsamen Pool ziehen, ohne an eine diskrete VRAM-Decke zu stossen. In Consumer-Preislagen bietet keine andere Plattform 96 GB als Einstieg und 512 GB als Top-Spec als effektiven Inferenzspeicher.

Der zweite Faktor ist die Speicherbandbreite. M3 Max liegt bei rund 400 GB/s, M3 Ultra etwa doppelt so hoch bei rund 800 GB/s. Das ist die physikalische Grundlage dafuer, dass ds4 auf dem M3-Ultra-Mac-Studio ca. 449 t/s prefill bei langem Prompt erreicht. Bandbreite bestimmt, wie schnell die Gewichte gelesen werden, und ist der dominierende Engpass fuer MoE-Inferenz. Auf einem Mac ist diese Bandbreite zusammenhaengend, nicht ueber mehrere diskrete GPUs gestueckelt.

Der dritte Faktor wird oft uebersehen. Moderne interne NVMe-SSDs in Macs passen ideal zum Disk-KV-Cache von ds4. ds4-server schreibt KV-Zustaende in den Pfad aus --kv-disk-dir und begrenzt den Fussabdruck mit --kv-disk-space-mb. Beim erneuten Oeffnen derselben Sitzung sparen Sie Sekunden bis Minuten Prefill. Apple-Internal-SSDs laufen sequenziell bei 5–7 GB/s, sodass Spill-and-Reload guenstiger ist, als RAM fuer jede gleichzeitige Sitzung neu zu bezahlen.

i

Hinweis: --kv-disk-dir auf die interne SSD zeigen lassen. Externe USB-C-Laufwerke liefern oft nur ein Drittel der zufaelligen Lese-/Schreibraten, das macht KV-Reload zum neuen Engpass. Externe Speicher eignen sich nur fuer kalte Sitzungs-Snapshots.

Zusammen ergibt das eine klare Aussage. Auf 2026er Consumer-Hardware passt nichts besser zu DeepSeek V4 Flash und ds4 als ein Mac mit viel Unified Memory. Bleibt die Frage, ob Sie sich einen 256- oder 512-GB-Mac leisten koennen und ob die Auslastung dauerhaft zur Anschaffung passt.

04

Wenn Kaufen verliert: gestaffelte Entscheidungsmatrix und Drei-Jahres-TCO im Ueberblick

Sobald die Hardwarerechnung auf einen echten Projektzyklus trifft, entsteht eine schwer zu vermeidende Schlussfolgerung. Die meisten Entwickler halten ein 512-GB-Mac-Studio nicht permanent ausgelastet. Fruehe Exploration kommt mit 128 GB Flash q2 aus. Die Produktphase wechselt auf 256 GB in q4. Erst ein dauerhaft laufender Coding-Agent mit langen Kontexten braucht 512 GB. Genau diese Treppe spielen Cloud-Mac-Knoten gut, ein gekauftes Geraet sperrt Sie auf einer Stufe ein. Wer DSGVO und Datenresidenz beachten muss, profitiert zusaetzlich, weil sich Standorte je nach Auftrag waehlen lassen.

Typische RolleHauptstufeWechselhaeufigkeitTop-Mac-Studio kaufen, 3-Jahres-TCOCloud-Mac-Knoten mieten, 3-Jahres-TCO
Unabhaengige Entwicklerin oder Forscher (unter 20 Modellstunden/Woche)vor allem 128 GB Flash q2, gelegentlich 256 GBseltene Upgrades256 GB Mac Studio ca. 7.500 USD; mit Wertverlust ca. 6.500+ USD ueber 3 Jahrewochenweise 128 GB plus vierteljaehrlich 256 GB; ca. 2.300–3.800 USD ueber 3 Jahre
Kleines AI-Startup (30–60 Stunden/Woche, mehrere Projekte)vor allem 256 GB Flash q4, gelegentlich 512 GB lange Kontextewoechentlicher Wechsel512 GB Mac Studio ca. 14.000 USD; ca. 12.000+ USD ueber 3 Jahremonatlich 256 GB resident plus 512 GB als Burst; ca. 5.700–9.000 USD ueber 3 Jahre
Coding-Agent-Intensivnutzer (ueber 60 Stunden/Woche)vor allem 512 GB Flash q4 mit langen Kontextenkein WechselTop-Spec-Mac-Studio amortisiert sich gutmonatliche Langzeitmiete fuer 512 GB; Preisluecke schrumpft, dafuer bleiben Elastizitaet und Wartungsfreiheit
Region-uebergreifendes Team (Naehe zu Nutzergruppen)pro Region 128–256 GBparallel je Regionmehrere Geraete, doppelte Ausgaben, kaum verwaltbarregional bedarfsorientiert geoeffnet; Standortwechsel als Bestellvorgang statt Logistik

Die Tabelle bringt eine schlichte Aussage. Ein gekauftes Top-Mac-Studio gewinnt nur, wenn die 512-GB-Stufe dauerhaft voll bleibt; diese Intensitaet erreichen die wenigsten unabhaengigen Entwickler und kleinen Teams. Realistisch ist es, mit Cloud-Knoten die tatsaechliche Stufe zu finden und erst dann ueber eine Hardwarebindung zu entscheiden. In der Praxis ist der Cloud-Knoten am Ende der Exploration meist schon die Antwort.

!

Hinweis: Versteckte Kosten beim Kauf gehen weit ueber den Listenpreis hinaus: Strom, Kuehlung, Backup-Speicher, Reparaturen nach Ablauf der Garantie und vor allem die naechsten zwei oder drei Apple-Silicon-Generationen innerhalb des Drei-Jahres-Horizonts. Heute Top-Spec ist in drei Jahren Mittelklasse; ein Cloud-Knoten verschiebt diese Abschreibungskurve auf den Anbieter.

05

Eine minimal lauffaehige Startcheckliste fuer ds4 auf einem VpsMesh-Cloud-Mac-Knoten und die Cursor-Anbindung

Die folgenden sechs Schritte fassen alles Vorhergehende in ein wiederholbares Runbook. Annahme ist ein VpsMesh-Cloud-Mac-Knoten mit mindestens 128 GB, empfohlen 256 GB, fuer lange Kontexte komfortabel 512 GB. Jeder Schritt enthaelt ein klares Pass/Fail-Kriterium, sodass Ihr Team direkt damit arbeiten kann.

  1. 01

    ds4 mit Metal-Backend bauen. git clone https://github.com/antirez/ds4 && cd ds4 && make. Sie erhalten ./ds4 (CLI) und ./ds4-server (HTTP). Pass: beide Binaries existieren und ./ds4 --help liefert Hilfe. make cpu auf macOS niemals ausfuehren, der CPU-Pfad kann Kernel-Panics ausloesen.

  2. 02

    Metal-Backend mit Smoke-Test pruefen. ./ds4 -p "Hello" --metal startet eine sehr kurze Anfrage und bestaetigt Device-Bezug und Basisgraph. Bei Knoten mit 128 GB oder mehr direkt zur naechsten Stufe mit Flash q2 wechseln. Pass: keine Meldung "Metal device not available", kein OOM.

  3. 03

    DeepSeek V4 Flash q2 oder q4 Gewichte laden und pruefen. Die GGUF-Quelle aus dem ds4-Projekt nutzen, q2 ca. 86,7 GB, q4 ca. 150 GB. SHA256 verifizieren. Gewichte und KV auf getrennte Volumes legen: Gewichte auf eine grosse Datenplatte mit mindestens 500 GB frei, KV auf die interne Mac-SSD. Pass: Pruefsumme stimmt, df -h zeigt mindestens 100 GB Reserve.

  4. 04

    ds4-server mit Disk-KV starten. Beispiel: ./ds4-server --ctx 200000 --kv-disk-dir /Volumes/ssd-kv/ds4-kv --kv-disk-space-mb 16384 --bind 127.0.0.1:8080. Mit 200k Fenster starten, nicht sofort mit 1M, um Speicherdruck zu vermeiden. Pass: Startlog zeigt Metal-Bereitschaft und beschreibbares KV-Verzeichnis; curl http://127.0.0.1:8080/v1/models liefert JSON.

  5. 05

    Cursor, opencode oder Claude Code verbinden. Die Client-Base-URL ueber einen SSH-Tunnel auf den Server zeigen lassen, der Remote-8080 auf lokal 127.0.0.1:8080 weiterleitet. 8080 niemals auf 0.0.0.0 oeffnen. Den Authorization-Header gemaess Startparametern setzen und den Modellnamen aus dem aktuellen ds4-Release verwenden. Pass: eine kurze Streaming-Anfrage an /v1/chat/completions liefert 200 OK.

  6. 06

    Observability und Rollback-Regel einrichten. Speicher und Disk mit vm_stat, memory_pressure und iostat beobachten. Trigger definieren: dauerhaft hoher Swap, Prefill faellt unter 50 % der Basis, oder KV-Verzeichnis ueberschreitet 80 % von --kv-disk-space-mb — dann auf eine Cloud-API (OpenAI, Anthropic, offizielles DeepSeek) ausweichen. Pass: der Rollback-Pfad liefert fuer gleiche Eingaben vergleichbare Ergebnisse.

bash
ssh -L 8080:127.0.0.1:8080 vpsmesh-mac-node \
  './ds4-server \
     --ctx 200000 \
     --kv-disk-dir /Volumes/ssd-kv/ds4-kv \
     --kv-disk-space-mb 16384 \
     --bind 127.0.0.1:8080'

curl -sS http://127.0.0.1:8080/v1/chat/completions \
  -H "Authorization: Bearer $DS4_TOKEN" \
  -H "Content-Type: application/json" \
  -d '{"model":"deepseek-v4-flash-q4","messages":[{"role":"user","content":"hello"}],"stream":false}' \
  | jq .

Drei harte Eckdaten fuer das Team-README:

  • Durchsatz-Basis. Auf einem 512-GB-M3-Ultra-Mac-Studio liegt q4 mit langem Prompt bei rund 449 t/s Prefill und 26,6 t/s Generation. Ein 128-GB-MacBook-Pro M3 Max liefert in q2 mit langem Prompt rund 250 t/s Prefill und 21,5 t/s Generation. Diese Werte als Health-Anker je Knoten verwenden.
  • Speicherbudget. q2-Gewichte rund 86,7 GB plus 200k-Token-KV rund 8–14 GB plus System rund 8 GB ergeben etwa 110 GB als Startpunkt. Ein 96-GB-Knoten ist daher nur fuer kurze Kontexte geeignet, 128 GB sind die echte Laborgrenze und erst 256 GB bringen Spielraum fuer KV und parallele Sitzungen.
  • Disk-KV-Dimensionierung. --kv-disk-space-mb bei 16 GB starten und etwa 1–3 GB je langer Sitzung einplanen. Interne SSD verwenden, externe Laufwerke machen KV-Reload zum neuen Engpass.

Wer einen 256- oder 512-GB-Mac-Studio gegen die Miete eines Cloud-Macs fuer ds4 abwaegt, sollte zwei Posten in die Kalkulation aufnehmen, die selten im Datenblatt stehen. Erstens die versteckte Rechnung fuer eine physische Maschine: Strom, Geraeusch, Kuehlung, Reparaturen nach Garantieablauf und die naechsten zwei oder drei Apple-Silicon-Generationen, die innerhalb von drei Jahren erscheinen werden. Zweitens die Betriebslast des Selbst-Hostings: ds4-server ueber Reboots hinaus als Dienst halten, den Wasserstand des KV-Disk beobachten und die Cursor- oder opencode-Verbindung selbstheilend gestalten. Nichts davon ist die eigentliche Arbeit. Fuer unabhaengige Entwicklerinnen, Forscher und kleine Teams, die ihre Zeit lieber in Modelle und Code stecken als in Maschinenwartung, sind die VpsMesh-Cloud-Mac-Knoten mit hohem Unified Memory — flexibel zwischen 96 / 128 / 256 / 512 GB schaltbar — meistens die realistischere und wirtschaftlichere Wahl. Erst eine Woche mit 128 GB, um die Flash-q2-Eignung zu pruefen, dann ein Monat mit 256 GB, um Cursor und einen Coding-Agent komfortabel zu betreiben, und erst danach die Entscheidung ueber einen 512-GB-Knoten als Dauer-Resident. Dieses stufenweise Vorgehen ist deutlich weniger riskant als der Direktkauf eines Top-Mac-Studios fuer den Preis eines Kleinwagens.

FAQ

Haeufige Fragen

Nein. Die ds4-Mainline zielt ausschliesslich auf DeepSeek V4 Flash. Flash hat 284 Mrd. Parameter und 13 Mrd. aktivierte pro Token. PRO hat 1,65 Bio. Parameter und 49 Mrd. aktivierte, was rund 3,2 TB in BF16 und etwa 800 GB in Q4 ergibt. Das passt in keinen 512-GB-Mac und liegt ausserhalb des Anwendungsbereichs von ds4 sowie Single-Box-Mac-Setups. Fuer Flash speziell siehe die VpsMesh-Preisseite und waehlen Sie einen 128-GB-Knoten oder hoeher.

Es ist die Untergrenze, bei der q2 ueberhaupt laedt, keine Komfortzone. Lange Kontexte und Nebenlaeufigkeit erzwingen schnell Swapping, besonders ab etwa 100k Token. 128 GB sind die realistische Laborgrenze, 256 GB das erste ernsthafte Ziel ohne Swapping bei mittleren Kontexten und 512 GB die Komfortzone fuer lange Kontexte plus dauerhaft laufenden Coding-Agent. Reine Machbarkeitspruefung gelingt billiger ueber zwei Wochen Miete eines 128-GB-Cloud-Knotens als ueber den Kauf eines 96-GB-Laptops.

Vereinfachte Regel: nur wenn die 512-GB-Stufe mindestens 30 Stunden pro Woche ueber mindestens zwei Jahre stabil ausgelastet wird. Darunter gewinnt die nutzungsbasierte Miete, sobald Strom, Wertverlust und die naechsten zwei oder drei Apple-Silicon-Generationen einkalkuliert werden. Das VpsMesh-Hilfezentrum erklaert die Kapazitaetsplanung; einen Probeknoten auf Ihre Auslastung schneiden Sie direkt ueber die Bestellseite zu.

Ja. ds4-server stellt /v1/chat/completions bereit und ist OpenAI-kompatibel. Die Client-Base-URL auf den Server zeigen lassen, Token setzen und ein Kontextfenster gemaess Startparametern waehlen. Im Produktivbetrieb stets an 127.0.0.1 binden und nur ueber SSH-Tunnel oder privates Netz erreichbar machen; niemals 0.0.0.0 oeffnen. Die SSH-Tunnel-Vorlage und Rollback-Trigger finden Sie in Abschnitt 05.