コスト上限、グレースフル デグラデーション、チャネルと cron の境界、再現可能な Runbook
OpenClaw Gateway を安定稼働させている開発者や小規模チームは、「モデルが応答する」をそのまま本番合格とみなしがちで、タスク種別とチャネルに沿った段階分け、プライマリ/バックアップ経路、コスト上限、障害時のフォールバックを後回しにします。配額枯渇やチャネルのジッターが重なると、自動化チェーン全体が一度に崩れます。本稿ではルーティング入力の五要素判定表、プライマリ・バックアップ・予算フィールドの対応関係、六段階の再現可能な Runbook、Gateway とチャネル側の分界と観測責務、そしてチーム規模 × 呼び出しパターン × コンプライアンスの意思決定マトリクスを整理し、本番向け強化、ランタイム切り分け、常駐クラウド展開へ相互リンクして、ルーティング方針と SLA を一回のレビューで揃えられるようにします。
ゲートウェイがリッスンし、チャネルを受信し、ツールが接続されているため、チームは依然として 夜間に cron がクォータを消費するため、日中のチャットが失敗する、 同じモデル ルートでバッチ ジョブを競合するホットフィックス チャネル、または 上限なしの再試行による 429 件の嵐で請求額が 2 倍に。根本的な原因は、 ルーティングは、タスク タイプ、チャネル SLA、予算と同じ階層でモデル化されていませんでした;としっかりと結合します 3 方向のランタイム分割 そして マルチチャンネル強化フィールドが欠落していると、パラメーターの調整は直感に任せてしまいます。
単層モデル税: すべてのエントリは 1 つのルートを共有します。長いコンテキストの作業と軽量の通知が同じバックエンドで競合し、遅延の急増と予測不可能なキューが発生します。
上限のない再試行税: チャネル コールバック障害または 429 では、上限のない指数関数的なバックオフにより、請求書とダウンストリームのスロットルが同時に悪化します。
逆フェイルオーバー税: バックアップ モデルの推論の深さ、コンテキスト ウィンドウ、またはツール スキーマがプライマリ パスと一致しないため、スイッチはコンシューマをサイレントに切り詰めたり中断したりします。
混合所有税: Webhook タイムアウトとモデルの最初のトークンまでの時間は 1 つのアラート ストリームに含まれるため、トリアージは推測になります。
可観測性ギャップ税: トークンの合計を記録しますが、記録しません route_id そして channel_id, そのため、レビューではどのエントリーが予算を消費しているのかを答えることができません。
以下の構成形状を比較する前に、これら 5 つを起動前ゲートにプロモートし、OpenClaw を「実行できる」状態から合格グレードの本番環境に移行させます。読むとき インストールしてトラブルシューティングを行う、インストール時の証拠を実行時のルーティング調整とは別に保管してください。
ユニバーサル JSON はありませんが、 レビュー可能な最小フィールドセット: 誰がトリガーするか、どのルートが実行されるか、障害が発生した場合に誰が引き継ぐか、いつサーキットブレークするか、およびコストがどのように帰属するか。テーブルは抽象的なままなので、実際のテーブルにマッピングできます。 openclaw キー。
| 次元 | プライマリパス | バックアップパス |
|---|---|---|
| トリガーソース | 人間のチャット、cron、Webhook、およびサブエージェントのハンドオフ用に個別のルーティング テーブル | 同時実行上限が低い最後の手段としてのみ共有デフォルト ルートを使用する |
| モデル層 | 高推論層、標準層、および低コスト層をタスク タグに明示的にマッピングする | プライマリ パスに対してバックアップ コンテキスト ウィンドウとツールのホワイトリストを検証する |
| コスト上限 | 1 日の上限に加え、トークンとコール数のチャネルごとの上限 | 上限に達した場合、サイレント障害ではなく読み取り専用モードまたはキューイング |
| フォールバック順序 | 同じベンダーの異なる SKU → ベンダー間の互換性のあるエンドポイント → ヒューマンチケット | 各ホップは、 failover_reason 列挙型 |
| 検証パス | CI での lint の設定とドライラン | ステージングでは、固定ケース セットをリプレイして、レイテンシとコストを比較します。 |
ルーティングは、パスが変更された理由が失敗によって説明される場合には実稼働グレードであり、成功して終了する場合はありません。
すでにフォローしている場合 マルチチャネルの本番環境の強化、強化が途中で停止しないように、このフィールド マップをチャネル許可リストやスキル監査と同じレビュー パックで出荷します。
新しいチームメイトはこれら 6 つのステップを半日で検証できます。各ステップは変更レコードとロールバック ポイントに対応しています。と ランタイムのトラブルシューティング、書きますrequest_idそして、ログ エンベロープへのルーティング決定。
エントリのインベントリを凍結します。 SLA および許容可能な最大キュー秒数を含む、Human、Cron、Webhook、およびサブエージェントのエントリをリストします。
ルーティング マトリックスを作成します。 タスクタグ × チャネル × モデル層 × プライマリ列とバックアップ列。 「全ては最強モデルへ」を禁止。
コスト ゲートを構成します。 1 日の予算、チャネルごとの予算、通話ごとの最大出力トークン、および 1 つのセクションのバックオフ上限。
ソフト フェイルオーバーとハード回路を実装します。 ソフト フェイルオーバーはバックアップ モデルをメトリックと交換します。ハード回路は自動再試行を停止し、人間によるページングを行います。
チャネルの再試行を調整します。 Webhook と Gateway の再試行によってモデル側 429 が増幅されてはなりません。必要に応じてチャネル層でキューを作成します。
ドリルクォータの枯渇: テスト環境の上限を下げ、読み取り専用モード、キューイング、およびヒューマン チケット パスが観察可能であることを確認します。
{
"routes": {
"interactive": { "primary": "model-a", "fallback": "model-b", "max_tokens_out": 4096 },
"cron": { "primary": "model-c", "fallback": "model-b", "daily_token_cap": 500000 }
},
"retry": { "max_attempts": 4, "base_ms": 400, "cap_ms": 8000 }
}
注: サンプルキーを実際の構成シェイプにマップします。不変式は プライマリとバックアップ、キャップ、およびキャップ付きバックオフ 入力寸法に合わせます。
階層化されたメトリクスがなければ、階層化された SLO は存在しません。少なくとも捕獲する ゲートウェイリクエストのライフサイクル、 チャネル配信とコールバック、そして モデルとツールの呼び出し レイテンシーとエラーコード付き。それ以外の場合、429 と TLS ハンドシェイクの失敗は 1 つの曲線を共有します。トリアージ順序が一致します 三者分割: ルーティングまたはチャンネルパラメータを調整する前に、どのセグメントが信号を所有するかを決定します。
まずゲートウェイ: gateway_request_latency_p95 ルーティング ログが一致する必要があります。両方がドリフトしている場合は、最初にリスナー サーフェスとリバース プロキシを検査します。
2 番目のチャンネル: コールバックの到達可能性、署名チェック、キューの深さ。と一致する ホワイトリストとTLSチェックリスト。
最後のモデル: クォータ、レート制限、ツール スキーマ。プライマリまたはバックアップの切り替え後、出力形状をダウンストリーム契約と比較します。
警告: チャネル層がハード回線の後にサイレント再試行を続ける場合は、ルーティングがすでに停止しているという火が再び点灯することになります。回路の状態は層全体で一貫している必要があります。
これら 3 つのバンドは、多くのエージェント プロダクション ロールアウトから来ています。 プロジェクト前のチェック、保証するものではありません。それらを独自の請求書と遅延ヒストグラムに置き換えてください。
route_id 2 番目のエントリが存在する間、トークンの 70% 以上を保持し、階層を分割するか、チャネルごとの予算を追加します。| チームの規模 | 通話パターン | 最初の安定した選択肢 |
|---|---|---|
| ≤ 5 | 人間のチャットが重い | 明示的な 1 日の予算を備えた 2 つのモデル層。別の低層の cron |
| 6~20 | マルチチャネルと自動化 | エントリごとのルーティング テーブル、ソフト フェイルオーバー、チャネル側キューイング |
| 20歳以上 | マルチテナントと監査 | 必須のルーティング監査フィールド、不変の構成バージョン、環境ごとの再生 |
| 厳格なコンプライアンス | 機密データの送信 | リージョン エンドポイント、パブリック コールバックなし、指定された所有者によるログ保持 |
ラップトップと断続的にオンラインになるホストは、スリープ、アップデート、およびキーチェーン分離による負債を蓄積し続けます。正しいルーティング テーブルであっても、基板が不安定な場合はフォールバック パスが歪められます。 契約グレードの常時稼働クラウド Mac ノード これは、ゲートウェイのプロセス、ハートビート、および SLA がどのようにして強制可能な条項になるのかを示しています。
通説: スムーズなチャットは健全な自動化と同等です。バッチおよびインタラクティブなワークロードは、逆のレイテンシとコストを想定しており、1 つのルートを共有すると予算が圧迫されます。
制御されたトークンと可用性による安定した OpenClaw 自動化を必要とするチームは、単一の自己構築ホストではスリープ ウィンドウと運用リズムで停止することがよくあります。純粋なローカル開発キットが 24 時間 365 日とキーのローテーションを同時に満たすことはほとんどありません。のために 監視可能なフォールバックを備えた本番グレードのルーティング、 通常は、VpsMesh Mac Mini クラウド レンタルの方が適しています。: 期間ごとの柔軟な請求、選択可能なリージョン、監査可能な専用ノード。そのため、ルーティングの指標とコストのレビューは、口頭での約束ではなく、実際の稼働時間に基づいています。
層を調整する前に、ゲートウェイとチャネルが確実に起動することを確認します。クロスリード インストールしてトラブルシューティングを行う と ランタイムのトラブルシューティング。永続ノードの場合は、 注文ページ。
ルートごとのトークンと呼び出し数をタスクごとのコストに折り畳んで比較します 価格設定 と 3 年間の TCO に関する記事 そして 永続的なクラウド展開 SLAの場合。