コンテンツにスキップ

7つの予算

設計の本質は「配分問題」です。各ユースケースに対して次の7つの予算を割り当て、予算が尽きたときにどう振る舞うかも必ずセットで決めてください。

予算 問い 典型的な設計変数 枯渇時の挙動
時間予算 何秒・何分待てるか タイムアウト、非同期化、分割、進捗通知 部分結果 or ジョブ化
コスト予算 1リクエストにいくら使えるか モデル選択、最大トークン、リトライ/ツール回数 強制終了+アラート
自律性予算 どこまで勝手に判断・実行できるか read-only / dry-run / approval / auto 人間へエスカレーション
状態予算 どの状態をどれだけ保持するか セッション、チェックポイント、長期メモリ、監査 TTL失効・要約圧縮
コンテキスト予算 何をプロンプトに入れるか RAG件数、要約、メモリ、履歴圧縮 リランク・段階要約
リスク予算 失敗時の被害をどこまで許容するか 権限、承認、サンドボックス、補償 承認ゲート・補償実行
観測予算 どこまで記録・評価・追跡するか ログ粒度、トレース、サンプリング、保存期間 標本化・コールド退避

この配分が、同期/非同期・単一/複数・短期/長期メモリ・強/弱ガードレール・詳細/要約ログといった 程度相反 を決めていきます。