0.はじめに2026年2月、100名を超える国際的なAI専門家の貢献を得て策定された「国際AIセーフティレポート2026(International AI Safety Report 2026)」が公表された(注1)。レポートは汎用AI(general-purpose AI)—多様なタスクを異なる文脈で実行できるAIモデルおよびシステムを指す—の能力、リスク、リスク管理の現状を科学的エビデンスに基づき包括的にレビューしたものであり、30カ国以上の国および国際機関が関与し、AIセーフティに関する史上最大規模の国際協力の成果とされる。本稿では、このレポートが特に注目するAIの新たな形態—「AIエージェント」に焦点を当て、その定義、能力、限界、そして今後の展望を、上下2回に分けて紹介する。【上】ではAIエージェントとは何か、【下】ではそのリスクと対策を取り上げる。▶【解説】AIエージェントのリスクと対策:AIセーフティレポート2026を読む【下】1.AIエージェントとは何か(1)定義と構造レポートによると、AIエージェントとは、目標を追求するよう設計されたシステムであり、その目標はしばしばユーザーが自然言語で指定する。レポートではこのAIエージェントの構造を図解している。中心にはレポートが’brain(脳)’と比喩的に表現する汎用AIモデルが置かれている。ユーザーからの入力(例えば「家計管理アプリを開発するコードを書いて」といった指示)を受けたモデルは、メモリツール(情報の保存)、Webブラウジングツール(Webの閲覧・ダウンロード・アップロード)、コンピュータ使用ツール(コーディング、ファイル管理、プログラム実行)に指示を出し、ツールから結果を受け取るというやり取りをしながら反復的推論(iterative reasoning)を通じて計画と行動を繰り返す。モデル単体では「考える」ことしかできないが、「手足」のようなツールを通じて、現実世界のタスク(例えばコンピュータコードの生成)を遂行するのだ(注2)。(出典: International AI Safety Report 2026)AIエージェントは、このように汎用AIモデルとツールを組み合わせた構成である。その組み合わせを可能にしているのが「スキャフォールディング」と呼ばれる仕組みである。スキャフォールディングとは、ツールとツールをモデルに接続するために用いられるコードを指す。これにより、AIエージェントは自律的に外部世界とやりとりし、計画を立て、重要な情報を記憶し、人間からの監視や支援を大幅に減らした状態で目標を追求することが可能になる。例えば、Web検索、ソフトウェア開発、オンライン購入などの多様なタスクを自ら行うことができるようになるのである。(2)非エージェント型システムとの違いAIエージェントの特徴を明確にするうえで重要なのが、「非エージェント型システム(non-agentic systems)」との対比である。非エージェント型システムとは、テキストや画像を生成して人間がレビューするだけのAIシステムを指す。非エージェント型は生成した出力を人間に提示し、それを読んで判断・行動するのは人間である。例えば、チャットAIは質問に対してテキストを返す一問一答が基本であり、外部世界に対して直接行動を起こすことはない。一方、AIエージェントは上述の構造に基づき、目標を与えられたら、外部世界の状況に応じて、計画→実行→結果確認→次の行動行動を自律的に繰り返す。その過程で他のAIシステムや人間に直接的に影響を与えうる。単体のエージェントであっても、ある行動が新しい状況を作り出し、それがさらに次の行動の前提となるため、影響が連鎖的に拡大しうるのだ。(注3)。2.AIエージェントの現在の能力レポートによると、AIエージェントはますます有用な作業を遂行できるようになっており、産業界での活躍も一般的になりつつあるという。具体的には、研究、ソフトウェア工学、ロボット制御、顧客対応などの領域でAIエージェントが開発されており、能力と自律性は着実に向上している。複数のエージェントが協調して目標に取り組むマルチエージェントシステム(注4)も生まれている。中でも、進展が最も顕著に観察されているのがソフトウェア開発領域である。ある研究によれば、AIエージェントは、コードの作成、バグ修正、テスト実行など、人間のソフトウェアエンジニアが日常的に行う作業を約80%の確率で完了できるようになっている。ここで注目すべきは、AIエージェントが「80%の成功率で自律的に完了できるタスク」について、人間の専門家がそれを行えば完了に要する時間が、約7か月ごとに倍増する形で拡大し続けている点である。2019年には、人間がそのタスクを完了するとしたら「わずか数秒」で終わるものがAIエージェントが「50%の成功率で完了できる」限界であったが、現在は人間が30分を要するタスクについて「80%の成功率で完了できる」ところにまで到達している。3.現在の限界——「ジャグド(jagged)」な能力こうしたAIエージェントの急速な能力の向上にもかかわらず、その「脳」である汎用AIシステムの能力は'jagged(ぎざぎざの)'-できることとできないことが不均一-であることがレポートでは指摘されている。当然、AIエージェントもこの特性を免れず、限界に直面している。(1)長期的なタスクと予期せぬ入力に弱い汎用AIシステムは、長期的計画を必要とするタスクに苦戦するとされる。特にAIエージェントにおいては、タスクが長くなるにつれ、進捗を見失い、加えて、予期せぬ入力に確実に対処することができない弱さがあるという。例えば、AIエージェントによるソフトウェア開発においては、最も高性能なAIシステムを用いても、2時間強のタスクでは成功率がわずか50%にとどまり、80%の成功率を達成するには、はるかに単純な25分のタスクに限定する必要があるという。また、AIエージェントがWebブラウザを使って調査や購入などのタスクを遂行している最中、ポップアップ広告が画面上に出現するとしよう。人間であれば「広告だ」と認識して閉じるだけで済むが、AIエージェントにとっては計画になかった画面の変化(予期せぬ入力)であり、それが何なのか、閉じるべきか、クリックすべきか判断できず、タスク全体が破綻する事例も報告されている。現時点では、長期、予期せぬ入力があるような複雑なタスクについて、信頼性ある自動化は実現不可能なままであるというのがレポートの結論である。(2)「完了」したタスクの品質にも課題が残るでは、AIエージェントが「完了」したタスクの品質はどうか。ここにも課題があると指摘されている。ある研究では、AIエージェントが動作するコードを生成したが、実際のプロジェクトで使用可能にするには、ドキュメント、フォーマット、品質に関する問題を修正するための相当な人間の作業を必要としたと報告されている。AIが生成したコードにはバグが含まれることが多く、自律的にコーディングを行うエージェントも定期的にエラーを起こすという。これらは、プログラムやセキュリティシステムに脆弱性をもたらしうる。AIエージェントがタスクを無事に「完了」できたとしても、そのまま本番環境で使用可能な品質に達しているとは限らないのである。(3)物理世界での動作はさらに困難物理世界の複雑さはAIエージェントにさらに課題をもたらすとされる。AIシステムのデジタル領域での進歩について、ロボティクスへの転用が困難であることが明らかになりつつある。近時、この分野では、ロボットが自然言語の指示に従い、複数の種類の感覚データ(例えばカメラ映像や触覚など複数種類のセンサー情報)の入力を解釈し、運動コマンドを生成できるよう設計されたVision-Language-Action(VLA)モデルの進歩に集中している。最先端のAIシステムに「キッチンを片付けて」と指示しても、家事などの複雑な物理環境では動作できない。しかし、VLAモデルは、工場や実験室などのような制御された環境においては、物理的なステップの順序を実行できるようになりつつあると報告されている。現在のVLAモデルは珍しい形状の物体や予期しない出来事に対してはまだうまく動作しない。デジタル領域で見られた「予期せぬ入力への弱さ」という問題は、物理世界ではより一層大きな壁となって、AIエージェントに立ちはだかるのだ。4.AIエージェントは進化し続けるかこうした限界を抱えながらも、レポートはAIエージェントの能力向上について、条件付きながらも注目すべき予測を示している。前述のとおり、AIエージェントが80%の成功率で自律的に「完了」できるタスクは倍増してきた。このトレンドが継続すれば、AIシステムは2027年までに人間であれば数時間、2030年までに数日を要するタスクまで同様に完了できるようになる可能性があるとされる。ただし、この予測には重要な留意点も付されている。第一に、この予測はAIエージェントによるタスクが“80%の成功率”を前提としており、多くの専門的な環境において必要とされる基準を下回る可能性が高い。また、本番環境で使用可能な品質を達成して「完了」するには新たなイノベーションが必要となる可能性も指摘されている。第二に、AIエージェントの「脳」であるAIモデルの性能向上がこのペースで持続するかについて、特に、2030年以降、専門家の間で意見が分かれている。歴史的には、AIモデルは、アルゴリズムの改善だけで年間2〜6倍の性能向上を実現してきた。しかし、AIモデルの訓練に必要な膨大なエネルギーの確保や、訓練に使える高品質のデータの不足という二つの制約が、現在の開発アプローチ自体の転換を迫る可能性があるという。レポートはこうした状況を踏まえつつ、AIエージェントの「信頼性(reliability)」—AIシステムが開発者またはユーザーの意図通りに機能する度合い—についてリスクの観点から分析している。信頼性の課題はAIエージェントにとって特にクリティカルである。なぜならエージェントの構造上、人間の行動や監視なしに直接的に影響を引き起こしうるからだ。次回の【下】では、AIエージェントのリスク構造と、現時点で有用とされる対策、そして今後の展望について、レポートの分析を紹介する。▶【解説】AIエージェントのリスクと対策:AIセーフティレポート2026を読む【下】(参考)AIエージェントは日本語環境では性能劣化?AIエージェントの「脳」である汎用AIモデルおよびシステムの能力は、言語および文化によって異なるとレポートは指摘している。モデルのパフォーマンスは英語でのタスクにおいて最も高い。これはほとんどの訓練データが欧米のソースに由来するという事実を反映している。この格差は文化的知識にも及ぶという。現在のモデルは高リソース言語(訓練データが豊富な言語)においてより効果的に「推論」するとされ、これが言語間のパフォーマンス格差をさらに拡大する可能性がある。この不均衡は、パフォーマンスの評価ベンチマーク自体が英語に大きく偏っていることによって増幅されているともいう。AIエージェントを日本語環境で活用したい場合、こうした言語・文化間の性能格差がどのように出現するかは注視していくべきであろう。(注1)レポートは、2023年英国ブレッチリー・パークでのAI Safety Summitにおいて各国首脳が委託したレポートシリーズの第2版であり、政策提言は行わず、科学的エビデンスに基づく情報基盤の提供を目的としている。チューリング賞受賞者のYoshua Bengio氏が主導した。(注2)Figure 1.3に記載されている “Iterative reasoning (‘chain of thought’)” は、「推論システム(reasoning systems)」と呼ばれる技術に基づく。推論システムとは、最終回答を出す前に自身の「思考の連鎖(chain of thought)」の中で複数の回答を生成・比較するシステムであり、2025年以降に主流化した。問題をより小さなステップに分解し、代替的な回答を比較する能力は、特に数学、コーディング、科学研究のタスクで大幅な性能向上をもたらしている。この推論能力がAIエージェントの計画・行動の技術的基盤となっている。(注3)本レポートにおけるAIエージェントと非エージェント型システムの対比は、汎用AIモデルの「使われ方」の違いに着目したものである。(注4)OECDは2026年2月公表のペーパー(「The agentic AI landscape and its conceptual foundations」)において、「AIエージェント(AI agent)」と「エージェンティックAI(agentic AI)」を概念的に区別し、前者は一定の自律性を持って環境を認識し行動するシステム、後者は複数のAIエージェントが協調してより複雑な目標を自律的に追求するシステムとしている。レポートはAIエージェントとエージェンティックAIをそれぞれ独立した用語として用いていないが、レポートのいう「マルチエージェントシステム」は「エージェンティックAI」に対応するものと考えられる。本稿は公開情報や執筆者の専門的知見に基づいた一般的な分析・見解を提供するものです。本稿に記載の見解は執筆担当者の個人的見解であり、当社または当社のクライアントの見解ではありません。