程度(Degrees)— ダイヤル・カタログ
原則:あらゆる目盛りは「効きすぎる害」と「効かなすぎる害」のちょうどよい中点を探す問題です。 ここに載せている目安値はあくまで出発点であり、駆動変数 に応じて動かしてください。固定のハードコードは避け、本番メトリクス(p99レイテンシ・ヒット率・評価スコア)をもとに継続的に再調整する変数として扱ってください。
実行・信頼性
| ダイヤル |
効かなすぎ ⇔ 効きすぎ |
決め方 [駆動変数] |
目安(出発点) |
関連 |
| タイムアウト |
正当な長時間処理を殺す ⇔ リソース占有・障害隠蔽・UX悪化 |
観測P99×安全係数を層ごとに持つ [latency_budget] |
ツール10–30秒/LLM呼出60–120秒/セッション全体は分〜数十分。ストリーミングはトークン間タイムアウトが優れる |
A6 |
| ネットワーク/5xxリトライ |
一過性障害で即失敗 ⇔ コスト増幅・リトライストーム |
指数バックオフ+ジッタ+Retry-After。非冪等な書き込みは冪等キー無しでリトライ禁止 [failure_cost, cost_sensitivity] |
2–4回、上限到達でサーキットを開く |
A6, C4 |
| 自己修正リトライ |
直せる出力を捨てる ⇔ 同じ誤りの反復・レイテンシ爆発 |
ネットワークリトライと別物。エラー内容を文脈に足す。3回目以降は改善しないことが多い [failure_cost] |
1–3回、超過で安全なフォールバック |
E4 |
| チェックポイント頻度 |
クラッシュ時に作業消失 ⇔ I/O過多 |
意味あるステップ単位+副作用の直前で必ず [reversibility] |
各ツール実行後・各LLM応答後・承認前 |
A2 |
| 予算上限(steps/cost/deadline) |
有用作業を途中で切る ⇔ 暴走・請求事故 |
タスク種別ごと。切れたら部分結果か人間へ [cost_sensitivity] |
調査系 max_steps 20–50/対話系 5–10/cost上限は1リクエスト価値の数%以下 |
A7 |
エラーは三分類で扱います。①一時障害(429/5xx/タイムアウト)→リトライが有効です。②コンテンツ起因(スキーマ不適合・低品質)→単純リトライは無意味なので self-correction に回します。③コンテキスト長超過→要約・分割で対応します。決済・発注など戻せない副作用は自動リトライを禁止し、状態確認後に補償してください。
自律性・人間介在
自律性は有無ではなく段階で設計します(L0–L6)。固定せず、実績に基づいて昇格/降格させてください(E5)。
| Lv |
名前 |
できること |
| L0 |
Suggest only |
提案のみ |
| L1 |
Read-only |
読み取りツールのみ |
| L2 |
Draft |
下書き作成 |
| L3 |
Dry-run |
実行計画と差分提示 |
| L4 |
Approval required |
人間承認後に実行 |
| L5 |
Bounded auto-execute |
低リスク範囲で自動 |
| L6 |
Full autonomous |
広範な自動(原則、限定環境のみ) |
| ダイヤル |
効かなすぎ ⇔ 効きすぎ |
決め方 [駆動変数] |
目安 |
関連 |
| 自律性レベル |
価値が出ない ⇔ 被害半径拡大 |
可逆性×失敗コスト×信頼度で自動/要承認/禁止に三分 [reversibility, failure_cost] |
読取=自動、可逆な書込=信頼度で自動化、不可逆=常に承認 |
E1, E5 |
| HITL承認頻度 |
リスク放置 ⇔ 承認疲れ |
全件でなくリスクゲート。承認はバッチ化 [failure_cost] |
金銭/不可逆のみ事前承認、他は標本監査 |
E1 |
| ガードレールの厳しさ |
危険出力が漏れる ⇔ 誤検知でUX破壊・無限自己修正 |
高失敗コスト経路だけ厳格に。block と warn を使い分け [failure_cost, latency_budget] |
副作用前・外部公開前は block、内部補助は warn |
E3 |
コスト・品質
| ダイヤル |
効かなすぎ ⇔ 効きすぎ |
決め方 [駆動変数] |
目安 |
関連 |
| モデル階層 |
品質不足 ⇔ コスト/レイテンシ爆発 |
難易度で動的選択、失敗時のみ上位へ [cost_sensitivity, request_value] |
分類/抽出=小型、推論/計画=高性能、検証=別系統 |
B7 |
| Best-of-N の N |
単発で不安定 ⇔ N倍コスト |
高難度/高失敗コストのみ上げる [request_value] |
既定 N=1、高リスクのみ 3–5 |
B6 |
| 温度 |
硬直 ⇔ 不安定・逸脱 |
抽出/分類は低温、創作は高温 [task_variability] |
構造化 0–0.3/対話 0.5–0.7/創作 0.8+ |
E4 |
| キャッシュ類似度閾値 |
ヒット率低下 ⇔ 誤回答の再利用 |
高失敗コスト領域ほど上げる [failure_cost, cost_sensitivity] |
コサイン 0.92–0.97、リスク高は再検証併用 |
D6 |
メモリ・コンテキスト
| ダイヤル |
効かなすぎ ⇔ 効きすぎ |
決め方 [駆動変数] |
目安 |
関連 |
| 検索 top-k / 投入文脈量 |
文脈不足でハルシネーション ⇔ "lost in the middle"・コスト増 |
信号密度最大化、リランクで絞る [cost_sensitivity] |
3–8件+リランク。窓の50–70%超で圧縮 |
D2 |
| メモリTTL/保持量 |
継続性喪失 ⇔ 古い情報・矛盾・肥大 |
種別ごとにTTL [failure_cost] |
価格/状態=短期、嗜好=中期、不変知識=無期限 |
D4 |
| メモリ書込の積極度 |
学習しない ⇔ 記憶汚染 |
書込ゲート閾値。重複・低確信・機微は弾く [input_trust] |
明示的事実・反復確認のみ永続化 |
D3 |
| 露出ツール数 |
仕事ができない ⇔ 選択ミス・遅延 |
動的スコーピングで必要分だけ [task_variability] |
同時露出10–20以下、超過はルーティング |
C1 |
観測
| ダイヤル |
効かなすぎ ⇔ 効きすぎ |
決め方 [駆動変数] |
目安 |
関連 |
| トレース・サンプリング率 |
障害を再現できない ⇔ 観測コスト爆発 |
エラー/高リスク/HITLは全量、成功は標本 [accountability, cost_sensitivity] |
エラー/HITL=100%、成功=1–10% |
G1 |
| プロンプト/出力の保存先・粒度 |
監査・デバッグ不能 ⇔ 観測基盤の肥大・PII混入 |
ホット/コールド二層化 [accountability, cost_sensitivity] |
基盤=メタ+truncate+hash、本文=オブジェクトストレージ |
G1 |
| ログ保持期間 |
監査要件を満たせない ⇔ 保管コスト・法的リスク |
ホット短期、コールドは規制要件まで [accountability] |
ホット7–30日/コールド90日〜数年 |
G1 |