Ollama lokale Inferenz · Cloud-API-Kostenmatrix · 6-Schritte-Runbook · Gateway-Symptome
Sie wollen OpenClaw mit Ollama betreiben, um Cloud-API-Kosten zu senken — und stoßen auf Gateway-Ausfälle nach Laptop-Sleep, timeouts beim ersten ollama pull oder Agent-Meldungen wegen unzureichendem Kontext. Dieser Leitfaden richtet sich an Entwickler, die ollama launch openclaw plus eine 24/7-Steuerebene auf einem Remote-Mac produktiv betreiben: zuerst eine Entscheidungsmatrix Cloud-API vs. lokale Inferenz (inkl. DSGVO-relevanter Datenhaltung auf dem Knoten), dann ein sechsstufiges Runbook für Installation und Abnahme, abschließend eine Symptomtabelle für Gateway und Ollama. Lesen Sie ergänzend die Installations- und Gateway-Fehlerbehebung sowie Multi-Model-Routing.
2026 bündelt die offizielle Ollama-Integration mit ollama launch openclaw Modell-Pull, Gateway und OpenClaw-Onboarding in einen Befehl. In Produktion scheitert es selten am fehlenden OpenClaw, sondern daran, dass Modell-Service und Kanal/Gateway-Dauerbetrieb auf demselben schlafenden Laptop liegen. Ollama- und OpenClaw-Dokumentation verlangen Node 22.14+ (teilweise 24); für lange Dialoge brauchen Sie Modelle mit ausreichendem Kontext (Community: mindestens 64k Token, z. B. qwen3-coder, glm-4.7). Mit einem 8k-Modell kann Gateway grün sein, während Skills nach mehreren Tool-Runden überlaufen. Für EU-Teams zählt hier auch die DSGVO: Prompts und Tool-Outputs auf einem dedizierten Remote-Mac zu halten reduziert Datenübermittlung an US-Cloud-APIs — dokumentieren Sie den Verarbeitungsort im Änderungsticket.
Pull-Erfolg als End-to-End werten: Gewichte auf Disk bedeuten nur Ollama-bereit; danach openclaw gateway status und ein minimaler Skill-Lauf.
Falsche Kontextwahl: Zu kleines Modell spart RAM, bricht aber lange Sessions; Kontext aus der Ollama-Modellkarte prüfen.
Laptop-Sleep killt Gateway: Lokale Inferenz spart API, Kanäle brauchen 24/7 — siehe Dauerbetrieb auf Cloud-Mac.
Docker- und Bare-Metal-Parameter vermischen: Container: mem_limit; Ollama nativ: Disk-Cache und Unified Memory — getrennte Fehlerbäume.
Cloud-Routing bleibt Default: Ollama läuft, Config zeigt noch teures Cloud-Modell — Provider explizit setzen und Deckel, siehe Multi-Model-Routing.
Wer diese fünf Punkte als Release-Gates behandelt, trennt Fehler sauber in Gateway, Kanal und Modell-Backend. Im nächsten Abschnitt signieren Sie Cloud-API, OpenRouter und Ollama lokal in einer Matrix.
Drei Kriterien: Datenschutz und Schlüsselgrenzen (DSGVO: wo liegen Prompts und Logs?), planbare Monatskosten, 24/7-Betrieb. Die Tabelle ist eine Review-Seite; danach nur das passende Runbook.
| Backend | Für wen | Hauptkosten | OpenClaw-Anbindung |
|---|---|---|---|
| Direkte Cloud-API | Niedrige Latenz, Token-Abrechnung OK | Key-Rotation, Spitzen, Regions-Compliance | Standard; Routing-Stufen und Limits |
| OpenRouter | Viele Modelle testen, schneller Wechsel | Weiterhin pay-per-use; Drittanbieter-Risiko | Gut als Cloud-Fallback zu Ollama |
| Ollama lokal | Daten auf dem Knoten (DSGVO-freundlicher) | RAM/Disk, Pull-Zeit, 64k+ Modelle | ollama launch openclaw oder manuelles Modell |
| Remote Mac + Ollama | Lokale Inferenz plus Kanäle 24/7 | Monatsmiete + Runbook | Gateway und Ollama co-lokalisieren |
API sparen heißt: Default wirklich auf Ollama und Kontext für lange Dialoge — sonst ist es nur ein weiterer Prozess.
Beispiel: ollama launch openclaw --model qwen3-coder; dazu openclaw onboard --install-daemon. Hybrid: Ollama primär, Cloud-API als dokumentierter Notfall — im Change-Ticket, nicht mündlich.
Reihenfolge wie in der Gateway-Install-Checkliste: zuerst Ollama und Modell, dann OpenClaw-Steuerebene und Kanäle. Jeden Schritt ins Ticket kopieren.
Ollama installieren: Auf dem Ziel-Mac Ollama 0.17+, dann ollama --version und ollama list; API auf localhost (typisch 11434).
Modell mit Kontext pullen: z. B. ollama pull qwen3-coder; Disk und Dauer für Kapazitätsplanung notieren.
OpenClaw-Integration: ollama launch openclaw --config, dann ollama launch openclaw; alternativ install.sh und manueller Ollama-Provider.
Onboard und Daemon: openclaw onboard --install-daemon, Ollama als Default; openclaw gateway status für Steuerport (z. B. 18789).
Minimaler Skill: kurzer Befehl ohne Browser, parallel openclaw logs --follow; bei Fehler nicht Modell und Kanal gleichzeitig ändern.
Kanal-Smoke (optional): Telegram/Slack per Mehrkanal-Härtung; unabhängig vom Modell-Backend prüfen.
ollama --version ollama pull qwen3-coder ollama launch openclaw --config ollama launch openclaw --model qwen3-coder openclaw onboard --install-daemon openclaw gateway status openclaw doctor --fix
Hinweis: Erster Pull über langsame oder grenzüberschreitende Links timeoutet oft — auf dem Remote-Knoten mit screen oder systemd pullen, damit SSH-Abbruch keine halben Layer hinterlässt.
| Symptom | Zuerst prüfen | Typische Maßnahme |
|---|---|---|
| ollama pull hängt/timeout | Freier Speicher, Netz, SSH-Abbruch | Session mit Keepalive; ggf. ~/.ollama bereinigen |
| Gateway grün, Antworten abgeschnitten | Modell-Kontext, Runden | 64k+ Modell; Cloud-Fallback oder Routing-Stufen |
| openclaw erreicht Ollama nicht | 11434, Firewall, Provider-URL | curl gegen Ollama-API; Loopback und Config angleichen |
| doctor: Node-Version | node -v | 22.14+ oder 24; nicht mit Container-Node verwechseln |
| Kanal ohne Callback | Erreichbarkeit, WS-Proxy | Install-Leitfaden zuerst; Modell später |
~/.ollama/models; 7B–30B-Modelle können Dutzende GB belegen — in der Kapazitätsplanung des Remote-Mac separat führen.Achtung: Nicht in einem Ticket Cloud-API-Key, Ollama-Tag und Kanal-Webhook gleichzeitig drehen — kein sauberes Bisect möglich.
Der Laptop eignet sich zum Validieren von ollama launch openclaw und Modellkarten. Sobald IM-Kanäle, Nacht-Cron oder ein geteiltes Gateway dazukommen, werden Sleep und NAT zum SLA-Risiko. Ollama-Cache, Gateway-Daten und Daemon gehören dann auf einen planbaren Remote-Mac — günstiger als ständiges Aufwecken des Notebooks.
Generische VPS ohne Unified Memory liefern bei großen Modellen oft langsame Inferenz, OOM und IO-Jitter; Cloud-Macs auf Apple Silicon passen besser zu Ollama. Für viele Teams ist lokaler Test, dann Remote-Dauerbetrieb robuster als sofort maximale Hardware. Wer dedizierte Kapazität, stabile Kanäle und auditierbare Changes braucht — in der EU oft auch wegen DSGVO und klarer Datenresidenz — findet in der VpsMesh Mac Mini Cloud-Miete meist die bessere Basis: Ollama und Gateway auf einem Mietknoten. Mietpreise, Hilfezentrum, Bestellen.
Ja. IM-Kanäle liegen im Gateway, unabhängig von Ollama oder Cloud. Sie brauchen Gateway 24/7 und erreichbare Webhooks — Mehrkanal-Härtung, Dauerbetrieb Cloud-Mac.
Zuerst ein Ollama-Modell mit 64k+ und flachere Tool-Ketten pro Session; bei anhaltendem Overflow Multi-Model-Routing für Stufen und Cloud-Fallback — nicht beides gleichzeitig ändern.
Ollama und Gateway auf einen Remote-Mac mit Daemon migrieren — 24/7-Leitfaden. Bestellen: Bestellseite, Preise: Mietpreise.