Orchestrierungsmuster · LangGraph vs CrewAI · MCP + A2A · Produktions-Observability · DSGVO
Ihr Team hat eine Single-Agent-Demo in Cursor ausgeliefert – und die Produktion verlangt parallele Recherche, Tool-Isolation und Human-Approval-Gates unter einem gemeinsamen Token-Budget. Ein monolithischer Agent stößt an Kontextgrenzen, Generalisten-Drift, keine echte Parallelität und einen Single Point of Failure. Dieser Leitfaden richtet sich an AI Engineers und Tech Leads auf dem Weg zu Multi-Agent Systems (MAS): sechs Orchestrierungsmuster, eine LangGraph vs CrewAI vs AutoGen-Entscheidungsmatrix, der MCP + A2A-Protokollstack, ein Sechs-Schritte-Produktions-Runbook (PostgresSaver, HITL-Interrupts, Circuit Breaker), MAST-Observability-Daten aus 1.642 Traces, Fallstricke und ein 2026-Trendbild – inklusive DSGVO-relevanter Compliance-Hinweise.
Ein einzelner LLM-Agent kann in Demos überzeugen: ein System-Prompt, eine Tool-Liste, ein Gesprächsthread. Unter echter Last wird er zum Engpass. Googles interner Agent Bake-Off-Benchmark zeigte: Multi-Agent-Teams schafften komplexe Workflows in 10 Minuten statt 60 Minuten – ein 6-facher Speedup. Separat fand die AdaptOrch-Studie, dass die Orchestrierungs-Topologie 12–23 % mehr Varianz beim Task-Erfolg erklärt als ein Modelltausch – Architektur schlägt Model-Shopping.
Bevor Sie Frameworks wählen, kartieren Sie die strukturellen Grenzen, die eine MAS-Aufteilung erzwingen.
Kontextfenster-Sättigung: Recherche, Code, Logs und Tool-Outputs sammeln sich in einem Thread. Retrieval-Qualität sinkt; der Agent vergisst Vorgaben von vor zehn Turns.
Generalisten-Prompting: Eine Persona kann nicht gleichzeitig SQL-Tuning, Legal Review und UI-Copy meistern. Instruktions-Interferenz erhöht Halluzinationsraten.
Keine echte Parallelität: Sequentielle Tool-Calls blockieren sich. Unabhängige Subtasks (drei Sites scrapen, drei Test-Suites) verschwenden Wall-Clock-Zeit.
Single Point of Failure: Ein schlechtes Tool-Ergebnis oder eine Runaway-Loop killt die gesamte Session. Keine Isolationsdomäne für Retries oder Rollbacks.
Undurchsichtige Kosten-Zuordnung: Finance kann nicht sagen, welcher Schritt Tokens verbrannte. Ohne Agent-Budgets leert ein gesprächiger Research-Agent das Monatslimit.
Topologie schlägt Modell. AdaptOrch zeigte: Orchestrierungsstruktur treibt 12–23 % mehr Ergebnisvarianz als Modellwahl – designen Sie den Graphen, bevor Sie GPT-Tiers upgraden.
Ein Multi-Agent System (MAS) ist eine koordinierte Menge LLM-gestützter Agenten, die State teilen, Subtasks delegieren und Spezialfähigkeiten exponieren. Jeder Agent ist nicht nur eine Prompt-Variante – er ist eine begrenzte Runtime mit eigenen Tools, Memory-Scope und Termination Policy.
| Eigenschaft | Bedeutung bei LLM-Agenten | Produktionssignal |
|---|---|---|
| Autonomie | Wählt nächste Aktion ohne Schritt-für-Schritt-Menscheninput | Guardrails nötig: Max-Iterationen, Budget-Caps |
| Reaktivität | Reagiert auf Tool-Ergebnisse und Peer-Nachrichten | Strukturiertes Message-Schema, nicht nur Freitext |
| Proaktivität | Startet Subtasks bei unvollständigen Zielen | Kann Runaway-Loops ohne Supervisor-Checks auslösen |
| Sozialität | Delegiert an und verhandelt mit anderen Agenten | Hängt von A2A-Discovery und klaren Handoff-Verträgen ab |
| Topologie | Steuerungsfluss | Ideal für | Risiko |
|---|---|---|---|
| Zentralisiert | Ein Orchestrator routet alle Nachrichten | Vorhersagbare Audit Trails, strikte Policy-Durchsetzung | Orchestrator-Kontext-Bloat; SPOF am Router |
| Dezentralisiert | Peers kommunizieren direkt; kein einzelner Boss | Resiliente Schwärme, emergente Kollaboration | Schwer debugbar; Terminierung nicht garantiert |
| Hierarchisch | Supervisor delegiert an Worker; Worker berichten nach oben | Enterprise-Workflows mit Approval-Stufen | Supervisor-Prompt-Komplexität; Latenz-Stapelung |
Die meisten Produktions-Stacks 2026 setzen standardmäßig auf hierarchisch mit einem schlanken zentralen Router für Auth und Budget-Enforcement – ein Hybrid aus Zeile eins und drei.
Muster sind kombinierbar. Ein Customer-Support-Stack nutzt vielleicht einen Supervisor, der an parallele Researcher fan-outet und die Synthese per Pipeline an einen Writer übergibt. Wählen Sie das minimale Muster-Set passend zur Abhängigkeitsstruktur.
Stufen laufen in fester Reihenfolge: Ingest → Analyse → Draft → Review. State durchläuft einen gemeinsamen Graph-Knoten. Ideal, wenn jeder Schritt vom vorherigen Output abhängt (ETL, Report-Generierung). LangGraph modelliert dies als linearen StateGraph mit typisierten State-Reducern.
Der Orchestrator spawnt N unabhängige Branches und aggregiert Ergebnisse. LangGraphs Send API dispatcht dynamische Worker-Knoten aus einem Map-Schritt; ein Reducer-Knoten merged Outputs. Für Multi-Source-Recherche, Ensemble-Voting oder Shard-Level-Code-Review.
from langgraph.types import Send
def fan_out(state):
return [Send("research_worker", {"query": q}) for q in state["queries"]]
def fan_in(state):
return {"report": synthesize(state["worker_results"])}
Ein Supervisor klassifiziert Intent und routet zu Spezialisten (Coder, DBA, Reviewer). Fügen Sie einen Keyword-Fast-Path hinzu: Regex- oder Embedding-Match bei High-Confidence-Intents überspringt den LLM-Routing-Call und spart Latenz und Tokens bei FAQ-Queries.
Agenten übergeben Gesprächskontrolle via handoff-Tools. Microsoft AutoGen glänzt hier: gut für offenes Brainstorming, wo der nächste Sprecher emergent ist. Schwerer auditierbar als fixe Graphen.
Agenten lesen/schreiben einen gemeinsamen Artifact Store (Blackboard) statt direkter Messages. Ein Planner postet Ziele; Spezialisten hängen Abschnitte an. Passt zu kollaborativer Dokumentenbearbeitung und Shared Knowledge Bases mit Konfliktlösung auf Store-Ebene.
Reale Systeme kombinieren Muster: hierarchischer Supervisor → paralleles Fan-out für Recherche → sequentielle Pipeline fürs finale Packaging. Zeichnen Sie explizit, welche Segmente sync vs. async sind, bevor Sie Code schreiben.
| Muster | Parallelität | Debuggability | Typisches Framework |
|---|---|---|---|
| Sequentielle Pipeline | Niedrig | Hoch | LangGraph, CrewAI sequential |
| Fan-out / Fan-in | Hoch | Mittel | LangGraph Send |
| Supervisor-Worker | Mittel | Hoch | LangGraph, CrewAI hierarchical |
| Schwarm | Mittel | Niedrig | AutoGen, Swarm SDK |
| Blackboard | Mittel | Mittel | Custom + Shared Store |
| Hybrid | Variabel | Mittel | LangGraph (am häufigsten) |
Alle drei haben 2026 Produktionsnutzer, optimieren aber unterschiedliche Steuerungsstile. Passen Sie das Framework an die Topologie an – nicht an Markenaffinität.
| Dimension | LangGraph | CrewAI | AutoGen |
|---|---|---|---|
| Mentalmodell | Stateful directed graph | Rollenbasierte Crew mit Tasks | Konversations-Agenten + Handoffs |
| State-Persistenz | First-Class-Checkpoints (PostgresSaver) | Memory-Backends, weniger graph-nativ | Chat-History pro Agent |
| Human-in-the-loop | Native interrupt()-Knoten | Task-Level-Human-Input-Hooks | UserProxyAgent-Pattern |
| Parallelität | Send API, Subgraphs | Async Task Execution | Group-Chat-Parallelität |
| Best Fit | Komplexes Branching, Prod-Checkpoints | Schnelle Crew-Prototypen, Rollenklarheit | Explorative Multi-Agent-Chats |
| Achtung | Steilere Graph-DSL-Lernkurve | Weniger Feingranularität im Scale | Nicht-deterministische Handoff-Chains |
Durable Checkpoints + HITL-Approval-Gates nötig? → LangGraph.
Demo-Crew an einem Nachmittag mit lesbarem Rollen-YAML? → CrewAI.
Offene Agent-zu-Agent-Verhandlung nötig? → AutoGen (oder Swarm).
Graph-Kontrolle und Chat-Handoffs beides? → LangGraph-Orchestrator wrappt AutoGen-Worker.
Tool-Integration und Agent-Kollaboration sind verschiedene Probleme. 2026-Stacks behandeln sie als Zwei-Schichten-Protokoll: vertikaler Tool-Zugang unten, horizontale Agent-Delegation oben.
| Schicht | Protokoll | Verbindet | Analogie |
|---|---|---|---|
| Vertikal | MCP (Model Context Protocol) | Agent ↔ Tools, Daten, Prompts | USB-C für Tool-Discovery |
| Horizontal | A2A (Agent-to-Agent) | Agent ↔ Agent-Delegation | HTTP für Service Mesh |
Jeder Agent veröffentlicht eine Agent Card – ein JSON-Dokument mit Capabilities, Input-Schemas und Endpoint-URLs. Peers rufen discover_and_delegate auf, um Subtasks ohne hardcodierte Agent-Listen zu routen.
{
"name": "sql-analyst-agent",
"description": "Read-only Postgres analysis and explain plans",
"url": "https://agents.internal/a2a/sql-analyst",
"capabilities": ["query", "explain", "schema-introspect"],
"input_schema": {
"type": "object",
"properties": { "question": { "type": "string" } }
}
}
async def discover_and_delegate(task: str, registry: AgentRegistry):
card = await registry.find_best_match(task)
if not card:
raise NoAgentError(task)
payload = {"task": task, "caller": "supervisor-01"}
return await a2a_client.send(card.url, payload)
MCP handhabt tools/list innerhalb jedes Agents; A2A bestimmt, welcher Agent den Task besitzt. Die vertikale Schicht im Detail: unser MCP-Protokoll-Leitfaden.
Demos nutzen In-Memory-State. Produktion braucht Crash-Recovery, Human Approval bei Hochrisiko-Aktionen und Kostenobergrenzen. Vier Primitive decken die meisten Teams ab, bevor Custom-Infra nötig wird.
MAX_ITERATIONS = 25
class ProductionGuardrails:
def __init__(self, budget: TokenBudgetManager, breaker: CircuitBreaker):
self.budget = budget
self.breaker = breaker
self.iterations = 0
def before_step(self, agent_id: str, est_tokens: int):
self.iterations += 1
if self.iterations > MAX_ITERATIONS:
raise RunawayLoopError()
self.budget.charge(agent_id, est_tokens)
self.breaker.check()
Graph zuerst auf Papier zeichnen: Sync-Edges, parallele Branches und HITL-Interrupt-Punkte markieren, bevor LangGraph-Knoten geschrieben werden.
PostgresSaver verdrahten: Checkpoints auf managed Postgres zeigen; Resume nach Process-Kill verifizieren.
MCP-Tools pro Agent registrieren: Jeden Agent auf Least-Privilege-Tool-Subsets scopen; nie eine Mega-Tool-Liste teilen.
Interrupt-Knoten hinzufügen: Deploy-, Delete-, Payment- und PII-Export-Tools hinter Human Approval – relevant für DSGVO-konforme Freigabeprozesse.
TokenBudgetManager + CircuitBreaker aktivieren: Tägliche Caps pro Agent; Alert bei 80 % Burn-Rate.
Observability vor Features shippen: OpenTelemetry-Spans pro Agent-Schritt; CORE_METRICS-Dashboard vor Agent Nr. 7.
Tipp: Chaos-Drill durchführen: Worker mid-Graph killen, neu starten und prüfen, ob PostgresSaver vom letzten Checkpoint ohne doppelte Side Effects resumed.
Was Sie nicht zuordnen können, können Sie nicht fixen. Die MAST-Studie analysierte 1.642 Multi-Agent-Execution-Traces und fand vorhersagbare Failure-Cluster – meist Design-Probleme, keine Modell-IQ-Lücken.
Teams investieren stark in Modelle, unterinvestieren in Telemetrie: MAST-Respondenten verbrachten 57 % der Engineering-Zeit mit Prod-Hardening vs. nur 8 % Observability – ein Ungleichgewicht, das dieselben Fehler in Produktion wiederholt.
Jeden Agent-Aufruf in OpenTelemetry-Spans wrappen: agent_id, parent_span, tool_name, token_in/out, latency_ms. Ins bestehende APM exportieren. CORE_METRICS als Mindest-Dashboard definieren:
| Metrik | Warum wichtig |
|---|---|
| task_success_rate | End-to-End-Zielerreichung, nicht Schritt-Genauigkeit |
| tokens_per_success | Kosteneffizienz; Spikes zeigen Runaway-Loops |
| p95_agent_latency | Pinpoint langsamer Spezialist oder Tool |
| handoff_error_rate | A2A-Schema-Mismatches und gedroppte Messages |
| hitl_queue_depth | Approval-Engpässe blockieren Graph-Fortschritt |
LLM-as-Judge auf einer Trace-Stichprobe: ein separater Evaluator-Agent scored Goal Alignment und faktische Konsistenz. Offline für Regressionstests nutzen, nicht inline bei jedem Request (Kosten).
Kontext-Verschmutzung: Worker liefern volle Raw-HTML-Dumps upstream. Kürzen, zusammenfassen oder im Blackboard speichern; Handles statt Payloads übergeben.
Runaway-Loops: Agenten delegieren endlos neu. MAX_ITERATIONS, Edge-Visit-Counts und Supervisor-Stop-Tokens erzwingen.
Over-Engineering: Fünfzehn Agenten für einen Drei-Schritte-Workflow. Bleiben Sie bei 3–8 Agenten, sofern Domänen nicht wirklich isoliert sind.
Demo-Prod-Gap: In-Memory-State und keine Budgets. Graphen mit ProductionGuardrails wrappen, bevor Kunden sie sehen.
Parallel-Branch-Sync: Fan-in läuft, bevor alle Branches fertig sind. defer=True auf LangGraph-Edges, damit der Reducer auf alle Send-Worker wartet.
graph.add_edge("fan_out", "fan_in", defer=True)
Warnung: Der teuerste Fehler ist, Agenten hinzuzufügen, um Prompt-Probleme zu fixen. Spezialisten-Prompts und Handoff-Schemas tunen, bevor ein weiterer Knoten gespawnt wird.
Sind Subtasks unabhängig? Ja → Paralleles Fan-out. Nein → weiter.
Ist die Reihenfolge strikt? Ja → Sequentielle Pipeline. Nein → weiter.
Emergenter Dialog nötig? Ja → Schwarm / AutoGen. Nein → Supervisor-Worker.
Crash-sicheres Resume nötig? Ja → LangGraph + PostgresSaver. Nein → CrewAI-Schnellpfad.
Team-übergreifende Agent-Discovery? Ja → Agent Cards + A2A veröffentlichen. Nur Tools → MCP pro Agent.
Laptop-gehostete Agenten schlafen beim Zuklappen, haben keine zuverlässige Prozessüberwachung für lange LangGraph-Checkpoints und kämpfen mit macOS-nativen Toolchains (Xcode, Keychain, Apple-notarized CI). Reine Linux-VPS handhaben stateless API-Worker, aber keine iOS-Build-Farms. Für Teams, die Multi-Agent-Graphen 24/7 neben iOS-CI/CD-Pipelines und MCP-Tool-Servern betreiben, bündelt VpsMesh Mac Mini M4 Cloud-Miete Uptime, Remote-KVM und planbare monatliche OpEx auf einem Host – mit dokumentierbarer Datenhaltung für DSGVO-sensible CI-Artefakte. Pläne vergleichen auf der Mac Mini M4 Mietpreise-Seite, Runbooks im Hilfezentrum, oder online bestellen für einen Einmonats-Pilot, bevor Sie den Orchestrierungs-Stack festlegen.
Die meisten Produktionssysteme liegen bei 3 bis 8 spezialisierten Agenten. Weniger als drei rechtfertigt selten den Orchestrierungs-Overhead; mehr als acht deutet meist auf Over-Engineering hin, sofern keine klaren Domänengrenzen und Agent-Observability vorhanden sind. Starten Sie mit Supervisor plus zwei Workern, messen Sie tokens_per_success, und splitten Sie nur, wenn ein Agent-Kontext dauerhaft überläuft.
MCP ist die vertikale Schicht: Jeder Agent verbindet sich via tools/list und JSON-Schema-Deskriptoren mit Tools und Daten. A2A ist die horizontale Schicht: Agenten entdecken Peers über Agent Cards und delegieren Subtasks. MCP innerhalb jedes Agents; A2A zwischen Agenten. Tool-Schicht: unser MCP-Leitfaden; Delegationsmuster: Abschnitt 05 dieses Artikels.
Nicht immer. Stateless LangGraph-Worker und Remote-MCP über HTTP+SSE laufen auf Linux-Cloud-VMs. Wenn Agenten von macOS-Toolchains, Xcode-Builds, Keychain-Secrets oder unterbrechungsfreien Checkpoint-Sessions abhängen, ist ein gemieteter Mac Mini M4 reibungsärmer als Laptop-Sleep-Zyklen. Einmonats-Pilot für Checkpoint-Latenz und Token-Burn – Hosting-Optionen mit dokumentierbarer Datenhaltung sind für DSGVO-relevante Workloads zu prüfen. Preise: Mac Mini M4 Mietpreise. Setup: Hilfezentrum. Bestellen: Cloud-Bestellseite.