
Eye on AI へようこそ。今回は…トランプ大統領、新たな大統領令で州のAI規制に狙いを定める…OpenAI、GoogleのNano Bananaに負けない新しい画像ジェネレーターを公開…Google DeepMindが仮想世界向けに有能なエージェントを訓練…AI安全性レポートカードはあまり安心できるものではない。
こんにちは。 2025年はAIエージェントの年になるはずだった。しかし、今年が終わりに近づくにつれ、テクノロジーベンダーのこうした予測が楽観的すぎることが明らかになってきました。はい、一部の企業は AI エージェントを使用し始めています。しかし、ほとんどの企業、特に企業規模の展開ではまだそうなっていません。マッキンゼーが先月行った「AIの現状」調査では、大多数の企業がまだAIエージェントの利用を開始しておらず、40%が実験中であることが判明した。少なくとも 1 つのユースケースで AI エージェントを大規模に導入したと回答した人は 4 分の 1 未満でした。コンサルティング会社がマーケティング、販売、人事などの特定の機能に AI を使用しているかどうかを尋ねたところ、結果はさらに悪化しました。これらの分野で AI エージェントを「完全に拡張した」、または「拡張中」と回答したのは調査回答者の 10% 未満でした。スケールされたエージェントで最も人気のある機能の 1 つは IT でした (エージェントは、サービス チケットの自動解決や従業員向けのソフトウェアのインストールによく使用されます)。ここでも、エージェントが「完全にスケールされた」と報告したのは 2% のみで、さらに 8% が「スケールしている」と回答しました。
問題の大きな部分は、信頼できる結果を生み出すことができる AI エージェントのワークフローを設計することが難しいことです。現在の最高の AI モデルでさえ、人間と同じように、ワークフロー内の特定のタスクは実行できるが、他のタスクは実行できないという奇妙な境界線にあります。複数のソースからデータを収集し、複数のステップにわたってソフトウェア ツールを使用するという複雑なタスクには、特別な課題が伴います。ワークフローが長くなるほど、プロセスの初期段階でエラーが発生し、結果が失敗するリスクが高くなります。さらに、最も有能な AI モデルを大規模に使用するにはコストがかかる可能性があります。これは、エージェントが多くの計画と推論を行う必要があるワークフローに特に当てはまります。多くの企業は、さまざまなエージェントを起動する「マルチエージェント ワークフロー」を設計することでこの問題を解決しようと試みてきました。このワークフローでは、あるエージェントを使用して他のエージェントの動作をチェックすることもあり、各エージェントにはワークフロー内の 1 つのステップのみが割り当てられます。これによりパフォーマンスが向上しますが、コストがかかる可能性もあります。場合によっては、コストが高すぎてワークフローを自動化する価値がなくなることがあります。
AI エージェントは常に 2 人が 1 人よりも優れているのでしょうか?
現在、私たちのチームは、マルチエージェント ワークフローを構築する代わりに単一エージェントを使用する方がよい場合と、特定のタスクにどのタイプのマルチエージェント ワークフローが最適であるかを判断するための有用な基準を企業に提供することを目的とした調査を実施しました。
研究者たちは、Google、OpenAI、Anthropic の AI モデルを使用して 180 件の制御実験を実施しました。私たちは、さまざまな目的をカバーする 4 つのエージェント AI ベンチマークに対してテストを行いました。複数の Web サイトで情報を検索する。 Minecraft ゲーム環境での計画 電子メールへの返信、会議のスケジュール設定、プロジェクト管理ソフトウェアの使用などの一般的なビジネス タスクを実行するための計画とツールを使用した金融エージェント ベンチマーク。この財務テストでは、代理人がSEC提出書類から情報を取得し、実際の結果と前四半期の経営陣の予測を比較したり、特定の製品セグメントから得られる収益が時間の経過とともにどのように変化したかを判断したり、会社がM&A活動に利用できる現金の量を判断したりするなどの基本的な分析を実行する必要があります。
過去 1 年間、マルチエージェント ワークフローがより信頼性の高い結果を生み出すというのが一般通念でした。 (この見解については、Prosus のようないくつかの企業の経験に裏付けられて、以前 Eye on AI で書きました。) しかし、その代わりに、Google の研究者は、従来の通念はタスクが正確に何であるかに大きく依存していることを発見しました。
単一エージェントのパフォーマンスは、連続したステップでは向上しますが、並列ステップでは低下します。
タスクが連続している場合 (多くの Minecraft ベンチマーク タスクに当てはまります)、単一の AI エージェントがタスクの少なくとも 45% を正確に実行できる限り (私の意見ではかなり低い基準です)、エージェントを 1 つだけデプロイする方が良いでしょう。どのような構成でも複数のエージェントを使用すると、全体のパフォーマンスが 39% ~ 70% 大幅に低下します。研究者らによると、その理由は、企業がタスク全体を完了するためのトークン予算が限られている場合、さまざまなツールの使用方法を見つけようとする複数のエージェントのニーズにより、すぐに予算を超えてしまう可能性があるためです。
ただし、多くの財務分析タスクのように、並行して実行できるステップが含まれるタスクでは、マルチエージェント システムが大きな利点をもたらしました。さらに、研究者らは、エージェントが相互に連携するように構成されている正確な方法によっても大きな違いが生じることを発見しました。財務分析タスクの場合、単一のコーディネーター エージェントが複数のサブエージェントのアクティビティとコーディネーターとのすべてのコミュニケーション フローを指示および監督する集中型マルチエージェント システムで最良の結果が得られました。このシステムは、単一エージェントと比較して 80% のパフォーマンス向上を達成します。一方、コーディネーターがなく、各エージェントに狭い役割を割り当てて並行して完了するだけの独立したマルチエージェント システムでは、単一エージェントと比較してパフォーマンスが 57% 向上するだけです。
このような研究は、企業が AI エージェントを構成する最適な方法を見つけ出し、テクノロジーが昨年の約束を確実に実現し始めるのに役立ちます。 AI エージェント テクノロジーを販売している人にとっては、何もしないよりは遅い方が良いでしょう。 AI エージェントを使用する企業に携わる私たちにとって、これらのエージェントが労働市場にどのような影響を与えるかを確認する必要があります。これは、2026 年に向けて私たちが注意深く注目することになる物語です。
その他、AI関連のニュースもお届けします。
ジェレミー・カーン jeremy.kahn@fortune.com@jeremyakahn
この記事はもともと Fortune.com に掲載されました。


