Blog2026-05-12· 約6分

MCP時代のエージェント設計：観測可能性とガードレール

完全自立エージェントを本番運用する際に必要な、観測・評価・制御の三要素について整理します。

by UNEEK AI Team

Model Context Protocol（MCP）の普及によって、エージェントが扱える「外部の手」は一気に増えました。社内DB、Slack、GitHub、デザインツール、ファイルストレージ──それぞれを個別に統合せずとも、共通のプロトコルで“道具”として渡せる時代です。一方で、エージェントが自律的に動くほど、運用上の悩みも変わってきます。「いつ・何を・なぜやったのか」を後から説明できるかどうか。私たちはこれを“観測可能性（Observability）”と呼び、ガードレールと評価とセットで設計しています。

1. なぜ“動くだけ”では足りないのか

デモまでは比較的すぐに作れます。LLM＋ツール呼び出しを並べれば、シナリオ通りには動いてくれる。しかし、本番に乗せた瞬間に出てくる質問はだいたい次の3つです。

なぜ今回はこのツールを呼び出した？（再現性）
想定外の入力に対しても安全に止まる？（安全性）
改善のために何を直せばよいかを、データで言える？（評価可能性）

これらは“あとから足す”のがとても難しい性質を持っています。本番に乗ったあとは、ログのスキーマも、評価データも、人の判断も、後付けで揃えづらい。最初の設計段階で“観測・制御・評価”の3点を意識しておく必要があります。

2. 観測可能性：エージェントの「思考の足跡」

私たちが必ず残すようにしているのは、次の4種類のイベントです。

ユーザー入力（生データと正規化後の双方）
LLMへのプロンプト・モデル・温度・トークン使用量
ツール呼び出しの引数・結果・所要時間
最終応答と、その応答に至った経路の要約

3. ガードレール：止めるべきところで、ちゃんと止まる

“自律”と“暴走”の境目はガードレールが握っています。私たちは、次のような階層で設計するのが現実的だと考えています。

入力側のガードレール

プロンプトインジェクションの検出（指示書の上書きを試みる入力）
PII（個人情報）の検出と必要に応じたマスキング
業務上の禁止トピックのスクリーニング

ツール側のガードレール

破壊的操作（削除・送信・課金）はヒューマン承認を必須に
ツールごとのレート制限・タイムアウト
副作用のあるツールはドライラン → 実行のステップを分ける

出力側のガードレール

応答に含まれるPII・機密情報のチェック
業務ルールに対する整合性チェック（金額・期日・対象範囲など）
“分からない時は分からないと言う”ためのフォールバック設計

4. 評価：定性的な手応えを、定量的な指標に

エージェントの良し悪しは、最終的にはユーザーの“納得感”で決まります。ですが、それだけでは改善のサイクルが回りません。私たちは、最低限以下の3つを揃えるところから始めます。

回帰用ゴールデンセット：壊してはいけない代表ケースを30〜100件用意する
シナリオ評価：複数ターンのタスク達成率・ツール選択の妥当性をLLM-as-a-Judgeで採点
人手評価：週次サンプリングで、定量指標と人の感覚のズレを監視

完璧なエージェントを作るのではなく、壊れたことに気づける仕組みを作る。
— UNEEK AI Team

5. まとめ：MCPは前提、勝負はその先にある

MCPの登場でエージェントの“接続コスト”は劇的に下がりました。これからの差別化は、接続後の運用、つまり観測・ガードレール・評価のセットを、どれだけ自然に設計に組み込めるかにかかっています。UNEEKでは、PoC段階からこの3点を“あたりまえに”組み込むことを推奨し、伴走させていただいています。

Blog 一覧に戻るこの記事についてのご相談

ほかの記事も読む。

Event2026-04-22

札幌AIミートアップ #04 を共催しました

札幌のAIコミュニティに向け、社内RAG事例と自立エージェントのライブデモを行いました。

Release2026-03-08

インタラクティブサイネージ向け配信プラットフォーム v2

シーン切替・センサー連動・ライブ更新に対応した次世代の配信基盤をリリース。

News2026-01-15

2026年も“人の感性を楽しく”取り組みを続けます

代表メッセージ：AIで人を置き換えるのではなく、人の感性を拡張する一年に。

Let's build together

“こんなことできない？”の
最初の一歩を、一緒に。

まだ言葉になっていない構想でも大丈夫。札幌のチームが、AIと開発の力で “感性を動かす体験” まで翻訳します。

無料で相談するサービスを見る

MCP時代のエージェント設計：観測可能性とガードレール

1. なぜ“動くだけ”では足りないのか

2. 観測可能性：エージェントの「思考の足跡」

3. ガードレール：止めるべきところで、ちゃんと止まる

入力側のガードレール

ツール側のガードレール

出力側のガードレール

4. 評価：定性的な手応えを、定量的な指標に

5. まとめ：MCPは前提、勝負はその先にある

ほかの記事も読む。

札幌AIミートアップ #04 を共催しました

インタラクティブサイネージ向け配信プラットフォーム v2

2026年も“人の感性を楽しく”取り組みを続けます

“こんなことできない？”の最初の一歩を、一緒に。

“こんなことできない？”の
最初の一歩を、一緒に。