AI エージェントを動作させるのに問題がありますか?この Google 研究が役立つかもしれません |運

Eye on AI へようこそ。今回は…トランプ大統領、新たな大統領令で州のAI規制に狙いを定める…OpenAI、GoogleのNano Bananaに負けない新しい画像ジェネレーターを公開…Google DeepMindが仮想世界向けに有能なエージェントを訓練…AI安全性レポートカードはあまり安心できるものではない。

こんにちは。 2025年はAIエージェントの年になるはずだった。しかし、今年が終わりに近づくにつれ、テクノロジーベンダーのこうした予測が楽観的すぎることが明らかになってきました。はい、一部の企業は AI エージェントを使用し始めています。しかし、ほとんどの企業、特に企業規模の展開ではまだそうなっていません。マッキンゼーが先月行った「AIの現状」調査では、大多数の企業がまだAIエージェントの利用を開始しておらず、40％が実験中であることが判明した。少なくとも 1 つのユースケースで AI エージェントを大規模に導入したと回答した人は 4 分の 1 未満でした。コンサルティング会社がマーケティング、販売、人事などの特定の機能に AI を使用しているかどうかを尋ねたところ、結果はさらに悪化しました。これらの分野で AI エージェントを「完全に拡張した」、または「拡張中」と回答したのは調査回答者の 10% 未満でした。スケールされたエージェントで最も人気のある機能の 1 つは IT でした (エージェントは、サービスチケットの自動解決や従業員向けのソフトウェアのインストールによく使用されます)。ここでも、エージェントが「完全にスケールされた」と報告したのは 2% のみで、さらに 8% が「スケールしている」と回答しました。

問題の大きな部分は、信頼できる結果を生み出すことができる AI エージェントのワークフローを設計することが難しいことです。現在の最高の AI モデルでさえ、人間と同じように、ワークフロー内の特定のタスクは実行できるが、他のタスクは実行できないという奇妙な境界線にあります。複数のソースからデータを収集し、複数のステップにわたってソフトウェアツールを使用するという複雑なタスクには、特別な課題が伴います。ワークフローが長くなるほど、プロセスの初期段階でエラーが発生し、結果が失敗するリスクが高くなります。さらに、最も有能な AI モデルを大規模に使用するにはコストがかかる可能性があります。これは、エージェントが多くの計画と推論を行う必要があるワークフローに特に当てはまります。多くの企業は、さまざまなエージェントを起動する「マルチエージェントワークフロー」を設計することでこの問題を解決しようと試みてきました。このワークフローでは、あるエージェントを使用して他のエージェントの動作をチェックすることもあり、各エージェントにはワークフロー内の 1 つのステップのみが割り当てられます。これによりパフォーマンスが向上しますが、コストがかかる可能性もあります。場合によっては、コストが高すぎてワークフローを自動化する価値がなくなることがあります。

AI エージェントは常に 2 人が 1 人よりも優れているのでしょうか?

現在、私たちのチームは、マルチエージェントワークフローを構築する代わりに単一エージェントを使用する方がよい場合と、特定のタスクにどのタイプのマルチエージェントワークフローが最適であるかを判断するための有用な基準を企業に提供することを目的とした調査を実施しました。

研究者たちは、Google、OpenAI、Anthropic の AI モデルを使用して 180 件の制御実験を実施しました。私たちは、さまざまな目的をカバーする 4 つのエージェント AI ベンチマークに対してテストを行いました。複数の Web サイトで情報を検索する。 Minecraft ゲーム環境での計画電子メールへの返信、会議のスケジュール設定、プロジェクト管理ソフトウェアの使用などの一般的なビジネスタスクを実行するための計画とツールを使用した金融エージェントベンチマーク。この財務テストでは、代理人がSEC提出書類から情報を取得し、実際の結果と前四半期の経営陣の予測を比較したり、特定の製品セグメントから得られる収益が時間の経過とともにどのように変化したかを判断したり、会社がM&A活動に利用できる現金の量を判断したりするなどの基本的な分析を実行する必要があります。

過去 1 年間、マルチエージェントワークフローがより信頼性の高い結果を生み出すというのが一般通念でした。（この見解については、Prosus のようないくつかの企業の経験に裏付けられて、以前 Eye on AI で書きました。）しかし、その代わりに、Google の研究者は、従来の通念はタスクが正確に何であるかに大きく依存していることを発見しました。

単一エージェントのパフォーマンスは、連続したステップでは向上しますが、並列ステップでは低下します。

タスクが連続している場合 (多くの Minecraft ベンチマークタスクに当てはまります)、単一の AI エージェントがタスクの少なくとも 45% を正確に実行できる限り (私の意見ではかなり低い基準です)、エージェントを 1 つだけデプロイする方が良いでしょう。どのような構成でも複数のエージェントを使用すると、全体のパフォーマンスが 39% ～ 70% 大幅に低下します。研究者らによると、その理由は、企業がタスク全体を完了するためのトークン予算が限られている場合、さまざまなツールの使用方法を見つけようとする複数のエージェントのニーズにより、すぐに予算を超えてしまう可能性があるためです。

ただし、多くの財務分析タスクのように、並行して実行できるステップが含まれるタスクでは、マルチエージェントシステムが大きな利点をもたらしました。さらに、研究者らは、エージェントが相互に連携するように構成されている正確な方法によっても大きな違いが生じることを発見しました。財務分析タスクの場合、単一のコーディネーターエージェントが複数のサブエージェントのアクティビティとコーディネーターとのすべてのコミュニケーションフローを指示および監督する集中型マルチエージェントシステムで最良の結果が得られました。このシステムは、単一エージェントと比較して 80% のパフォーマンス向上を達成します。一方、コーディネーターがなく、各エージェントに狭い役割を割り当てて並行して完了するだけの独立したマルチエージェントシステムでは、単一エージェントと比較してパフォーマンスが 57% 向上するだけです。

このような研究は、企業が AI エージェントを構成する最適な方法を見つけ出し、テクノロジーが昨年の約束を確実に実現し始めるのに役立ちます。 AI エージェントテクノロジーを販売している人にとっては、何もしないよりは遅い方が良いでしょう。 AI エージェントを使用する企業に携わる私たちにとって、これらのエージェントが労働市場にどのような影響を与えるかを確認する必要があります。これは、2026 年に向けて私たちが注意深く注目することになる物語です。

その他、AI関連のニュースもお届けします。

ジェレミー・カーン jeremy.kahn@fortune.com@jeremyakahn

この記事はもともと Fortune.com に掲載されました。

Admin

Website | + posts

AI エージェントを動作させるのに問題がありますか?この Google 研究が役立つかもしれません |運

Cogent Communications Holdings、第1四半期の損失幅の縮小報告。収益3％減少 – Alphastreet

海のデータセンター：オレゴン州のPanthalassaは、Peter Thielが率いる波ベースのAIで1億4,000万ドルの収益を上げました。

第1回全国大学間体育大会開催

Metaは数十億ドルの株式を持ち、ニューメキシコで画期的な裁判を控えています。

ブリトニー・スピアーズ、投獄を避けるためにDUI事件で「湿式無謀」の疑いについて有罪を認める幸運

Admin

グローバル市場が下落するにつれて、イギリスの消極的所得株は、より安い価格でより高い利回りを提供します。

「盗まれた土地では誰も不法滞在者はいない」：グラミー賞はいかにして大規模なトランプ大統領選とICE抗議活動に変わったのか運

イーサリアムは7,500ドルまで急騰し、ビットコインが置き去りになる可能性があると、ジャイアント銀行は述べている。

なぜシンガポールがアメリカの新しいAI「インナーサークル」の唯一の東南アジアの国なのか Pax Silica | シンガポール運

Company

Latest

Cogent Communications Holdings、第1四半期の損失幅の縮小報告。収益3％減少 – Alphastreet

海のデータセンター：オレゴン州のPanthalassaは、Peter Thielが率いる波ベースのAIで1億4,000万ドルの収益を上げました。

第1回全国大学間体育大会開催

Popular

サムスンがGalaxy S26 Ultra Bombを発表

ドローンホーム：スタートアップの急速な成長の中で、Brincがシアトルの大規模な新しい本社と工場に移転

史上最安値から1ペニー、アストンマーティン株は反発の準備はできているのか？