【解説】AIエージェントのリスクと対策：AIセーフティレポート2026を読む【下】

0.はじめに前回のAIエージェントとは何か―その能力と限界：AIセーフティレポート2026を読む【上】では、国際AIセーフティレポート2026（International AI Safety Report 2026）（以下「レポート」）に基づき、AIエージェントの定義、構造、現在の能力、限界を紹介した。AIエージェントは、汎用AIモデルを“脳”として、メモリやWebブラウザ、コンピュータ操作といったツールとやり取りしながら、ユーザーが自然言語で指定した目標を自律的に追求する。その能力は急速に拡大する一方、モデルの能力が「jagged（ぎざぎざ）」（できることとできないことが不均一）であるゆえに、AIエージェントは特に長期的なタスクや物理世界での動作に依然として大きな制約がある。【上】では、こうした「信頼性（AIシステムが開発者またはユーザーの意図通りに機能する度合い）」の問題が、人間の行動や監視なしに直接的に外部に影響しうるAIエージェントにおいては、特にクリティカルになることに触れた。【下】では、AIエージェント「信頼性」について掘り下げ、レポートが整理するAIエージェント特有のリスク構造、対策、そして展望を紹介する。なお、複数のAIエージェントが協調して目標に取り組むシステムは一般に「エージェンティックAI」（注1）と呼ばれるが、レポートではこれを「マルチエージェントシステム」として扱っている。本稿もこれに従う 。▶ AIエージェントとは何か―その能力と限界：AIセーフティレポート2026を読む【上】1.AIの信頼性リスクとエージェントによる増幅(1)汎用AI全般に共通する信頼性リスクレポートは汎用AIシステム全般に共通する信頼性リスクの問題を次の5つの類型に整理している。 このうち、ハルシネーション、基本的推論の失敗、見慣れない、または通常と異なる入力への失敗は汎用AIシステム全般に当てはまるものである。 こうした信頼性リスクは改善傾向にあるが、依然として無視できない水準にあるという。例えば、最先端のAIモデルが医師資格試験に合格できる水準に達しているとする報告がある一方、ある研究ではモデルが医療に関する質問の19%に対し潜在的に有害な回答を提供したことも報告されている。(2)エージェントは信頼性リスクを増幅するこれらの信頼性リスクはAIエージェントにおいては構造的に増幅される。例えば、テキストや画像を生成して人間がレビューするだけの非エージェント型システムでは、ハルシネーションや推論の誤りは人間のレビュー段階で発見・修正される余地がある。しかし、AIエージェントは、ツール（Webブラウザ、コンピュータ操作、メモリ等）を介して現実世界に直接働きかける。メールの送信、ファイルの編集、Webサイトへの投稿、オンラインでの購入といった行動について、人間の承認を逐一得ることなく自律的に実行するため、非エージェント型より人間が介入する機会が少なくなり、直接的により大きな損害を引き起こす可能性がある。そして、マルチエージェントシステムにおいては、さらにエージェント間の相互の働きかけを通じてエラーが伝播・増幅する可能性があるため、エージェント単体より、さらに大きなリスクをもたらすことが指摘されている。この信頼性リスクの増幅は、金融サービス、エネルギー管理、科学研究などの戦略的またはセーフティクリティカルな環境に導入されたエージェントにとって、特に重大である。(3)AIエージェント・マルチエージェント特有の信頼性リスク信頼性リスクの残り2つの類型は、エージェントに固有のものである（注2）。【ツール使用の失敗】AIエージェントはツールを介して現実世界に働きかけるが、そのツールの使用自体において誤動作は起こりうる。例えば、ユーザーの非公開画像をAIエージェントが第三者ツールに送信してしまうことによるプライバシー漏洩や、エージェントが前のステップでユーザーから受けた指示や条件を忘れ、誤った前提に基づいて次の行動（ツール使用）を実行してしまうことが想定されている。【マルチエージェント間の協調失敗・衝突】マルチエージェントシステムでは、複数のエージェントが共有または個別の目標を追求しながら相互にやりとりする。例えば、研究文献レビューを行うマルチエージェントシステムでは、リードエージェントがユーザーの問いを分解し、サブエージェントがそれぞれ異なる側面を並行して調査する。こうした構成は効率を高める一方、エラーがエージェント間で伝播しうることも意味する。レポートは、複数のエージェントが共有リソースを利用する場面に、各エージェントが自分に与えられた個別の目標を優先する結果、リソースを過剰消費し破綻するケースを挙げている。また、複数のエージェントが同じベースモデルや同じツールに基づいて構築されている場合、同種のエラーが同時に複数のエージェントで発生することも起こりうる。(4)エージェントの“ハイジャック”リスクプロンプトインジェクション攻撃（悪意ある入力による挙動の操作）に対するAIエージェント特有のリスクも指摘されている。プロンプトインジェクション自体は、汎用AIシステム全般に対するリスクである。しかし、AIエージェントに対する攻撃はより直接的な損害をもたらしうる。例えば、悪意ある者が、Webサイトやデータベース内に人間の目には見えない隠し指示を埋め込んでおき、エージェントが調査タスクの一環としてそのページを閲覧すると、隠し指示が読み込まれ、ユーザーの意図に反する行動（ユーザーの情報を外部送信する等）を取るといった事態が想定される。エージェントが「ハイジャック」され、メールの送信、ファイルの削除、不正な購入の実行など、現実世界で「行動」を起こすのだ。この攻撃は特に防御困難であると指摘される。なぜなら、ユーザーや開発者のコントロール外にある外部コンテンツを通じて攻撃は仕掛けられるからである（注3）。2.対策の現状と限界(1)多層防御（defence-in-depth）の考え方上記の信頼性リスクに対し、レポートでは管理策の現状が整理されている。その出発点は、いかなるセーフガードの組み合わせも完全に信頼できるものではないという認識であり、「defence-in-depth（多層防御）」のアプローチである。多層防御とは、技術的、組織的、社会的な対策を開発・導入の異なる段階にわたって組み合わせ、独立したセーフガードの層を作ることで、ある層が失敗しても他の層が害を防げるようにするものである。 （出典： International AI Safety Report 2026）レポートはこれを、感染症予防においてワクチン、マスク、手洗いなどの対策を組み合わせる例えで説明している。いずれの方法も単独では100%の有効性を持たないが、組み合わせることでリスクを大幅に低減できる。この多層防御は、大きく分けて組織的対策と技術的セーフガードの二つの柱で紹介されている。(2)組織的対策レポートは、レポートは、リスク低減のための組織的対策として次を挙げている。利用規約・禁止使用ポリシー：AIモデルの責任ある使用に関するルールと指針の策定・公表アクセス制御・ユーザー審査：ユーザーの役割や属性に基づくAIモデルへのアクセス制限行動仕様書：AIモデルがさまざまな状況でどう振る舞うべきかを定義する文書段階的リリース：限定的なユーザーグループへの段階的な提供による、リスク顕在化時の対処余地の確保if-thenコミットメント：AIモデルがあらかじめ定めた能力閾値に達した場合に特定の対策を発動する条件付きプロトコルこれらの組織的対策は、誰にモデルを提供するか、どのような使用を許可するか、どの段階で追加対策を講じるかといった技術的セーフガードでは対処しきれないリスクをカバーする。(3)技術的セーフガード技術的セーフガードは3つのカテゴリに整理されている。モデル開発段階で適用される対策：有害なデータの除去（データキュレーション）、モデルに有害な要求を拒否するよう訓練する敵対的訓練、人間のフィードバックに基づく強化学習（RLHF）など導入時の監視・制御：入出力に対するコンテンツフィルタリング、モデル内部状態のモニタリング、推論過程（chain of thought）の検証、ヒューマン・イン・ザ・ループ、サンドボキシングなど導入後のエコシステム監視ツール：モデルの来歴追跡やAI生成コンテンツの検知技術など（出典： International AI Safety Report 2026）レポートは、これらのセーフガード技術がAIシステムのInputからOutputまでの複数のポイントで機能する構造を図解している。入力段階では有害コンテンツのスクリーニングが行われ、内部ではモデルの活性化状態の監視やchain-of-thought（推論過程）の検証が実施される。出力段階では有害コンテンツの検知が機能し、外部への行動はサンドボキシングによって制約される。これにより、全体を通じて人間による監視が維持されることになる。(4)AIエージェントへの適用AIエージェントに対しては、これらの既存のリスク管理の枠組みの中で、エージェント特性・特有の行動パターン（ツールの使用、他のエージェントとのやりとり、自律的な外部世界への働きかけ）に合わせた対策が求められている。本稿ではレポートに基づき、AIエージェントの文脈で特に重要と考えられる対策を紹介する。【サンドボキシング（Sandboxing）】サンドボキシングとは、AIシステムが外部世界に直接影響を与える能力を制限すること（例えばインターネットへのアクセスやファイルシステムの権限を制限すること）により、システムの監視と管理を容易にすることを指す。AIエージェントにおいては、サンドボキシングを用いることで、エージェントが直接、外部世界に影響を与える手段を制限し、管理・監視を容易にする。レポートはこれを「AIエージェントが直接世界に影響を与えることを防ぐ」有効な手段と明示している。例えば、AIシステムがインターネットに投稿したりコンピュータのファイルシステムを編集したりする能力を制限することで、予期せぬ行動による害を防ぐことができよう。ただし、サンドボキシングはエージェントが外部世界に直接働きかける手段を制限するため、制限を厳しくすればリスクは下がるが、エージェントが本来遂行すべきタスクの遂行能力も制限されるというトレードオフがある。【ヒューマン・イン・ザ・ループ（HITL）】 HITLとは、完全な自動化を許容するのではなく、自動化されたシステムにおいて、行動が実行される前に人間がそれをレビューし承認することで、意思決定の権限を人間が保持するアプローチを指す（注4）。AIエージェントにおいては、完全に自律的に動作するのではなく、人間が監視し、必要に応じて介入できるよう設計することが求められる。しかし、その実践には困難が伴うこともレポートは指摘している。例えば、数百万のユーザーを抱えるチャットアプリケーションのように意思決定が迅速に行われる場面では、人間が逐一確認することは現実的でない。また、人間のバイアスや判断ミスがエラーを複合的に増幅するケースもある。さらに、監視役の人間には「自動化バイアス（automation bias）」（AIシステムの出力に対して正当化される以上の信頼を置いてしまう傾向）が指摘されている。今後、AIエージェント、マルチエージェントシステムの進展において、HITLの実効性の担保はさらに重要なアジェンダになるだろう。【透明性・人間による監督・技術的モニタリング】AIエージェントに対する、透明性、人間による監督、技術的なモニタリング（データ収集、ログ記録など自動化可能な活動）の改善を通じて信頼性を向上させるアプローチである。例えば、エージェントが外部ツールとやりとりする際や、他のエージェントとやりとりする際にモニタリングを行うことは、より効果的な監視やインシデント分析を可能にするとされている。ただし、マルチエージェント環境も含め、こうした情報を自動的に収集する手法は依然として活発な研究領域にとどまっている。3.エビデンスのジレンマと企業実務への示唆レポートは、AIエージェントを含む汎用AIシステムの信頼性リスクの管理策をめぐる構造的な課題として「エビデンスのジレンマ（evidence dilemma）」も提示している。エビデンスのジレンマとは、次のような構造的問題を指す。汎用AIの状況は急速に変化するが、新たなリスクと対策戦略に関するエビデンスの蓄積は遅れがちである。限られたエビデンスに基づいて行動すれば、効果のない、あるいは有害な政策に繋がりかねない。かといって、より確固たるエビデンスを待てば、社会をさまざまなリスクに対して脆弱なままにしかねない。レポートは政策立案者にとっての主要な課題として、エージェントの導入がもたらす利益と信頼性の障害によるリスクを天秤にかけること、開発者・導入者・ユーザーがエージェントの性能とリスクプロファイルに関する正確な情報にアクセスできるようにすることなどを挙げている。また、AIエージェントが引き起こした損害に対する責任の帰属をどのように決定するかという問題も挙げ、特にマルチエージェント環境では、障害がいつどのように発生したかを特定すること自体が困難であるため、責任の所在はより一層不明確になりうると指摘する。これらは、AIエージェントを導入／導入を検討する企業にとっても同様に重要なアジェンダとなるだろう。今後、エージェントが自律性を高め外部ツールへのアクセスを拡大するにつれ、信頼性リスクを評価することは、さらに難しくなる。なぜなら、自律性が高まるほど、エージェントの行動は多様化・予測困難になるからだ。また、エージェント的能力がどれほど急速に出現するかという不確実性が、新たな課題に備えることをさらに困難にしているとも指摘されている。企業のガバナンス担当者は、不確実性が増す中で、前に進まざるを得ない。エビデンスのジレンマを前に、万全の対策の完成を待つことではなく、組織的対策と技術的セーフガードの両輪による多層防御を進めることがさらに重要になっている。（注5）。▶ AIエージェントとは何か―その能力と限界：AIセーフティレポート2026を読む【上】（注1）【上】の注4で紹介したように、「AIエージェント」と「エージェンティックAI（agentic AI）」は概念的に区別されている（The agentic AI landscape and its conceptual foundations,OECD（2026）他、AI事業者ガイドライン第1.2版も参照されたい）。（注2）レポートは汎用AIシステムの長期的なリスクとして「制御の喪失（loss of control）」（汎用AIシステムが誰のコントロールも及ばない形で動作し、制御を取り戻すことが極めて困難になるシナリオ）も分析しており、制御喪失に関連する能力の一つとして「エージェント的能力」を挙げている（§2.2.2, Table 2.5）。現在のAIシステムは関連能力の初期的兆候を示しているが制御喪失を可能にする水準には達していないとされている。ただし、専門家間でこのリスクの発生可能性に関する見解は大きく分かれており、能力向上に伴い注視が必要な領域であるとされている。（注3）NISTは2025年1月に、エージェント・ハイジャックリスクに関する新たな評価手法の開発に取り組んでいることを公表している（Technical Blog: Strengthening AI Agent Hijacking Evaluations, NIST (2025); https://www.nist.gov/news-events/news/2025/01/technical-blog-strengthening-ai-agent-hijacking-evaluations ）（注4）なお、AIガバナンスの議論では、個々の出力を逐一チェックするHITLに対し、システム全体を監督し異常時に介入する"Human Over the Loop（HOTL）"という概念も提唱されているが、レポートではこの区別は扱われていない。（注5）AIエージェントのガバナンスに関する国際的な動向として、NISTは2026年2月に「AI Agent Standards Initiative」を発足させ、エージェントのセキュリティ、認証・認可、相互運用性に関する業界主導の技術標準やオープンプロトコルの策定を推進している。なお、AIエージェントはリスクの源泉であると同時に、リスク対策のツールとしても活用され始めている。レポート§3.5によれば、AIエージェントはソフトウェアの脆弱性（未発見のセキュリティ上の欠陥（ゼロデイ脆弱性）を含む）を特定する能力を持ち、早期パッチ適用などの防御行動を促進しうる。GoogleのBig Sleep AIエージェントは、2025年に実際に悪用されようとしていた脆弱性を発見・阻止したと報告されている。 本稿は公開情報や執筆者の専門的知見に基づいた一般的な分析・見解を提供するものです。本稿に記載の見解は執筆担当者の個人的見解であり、当社または当社のクライアントの見解ではありません。