仕事
AIエージェントの見出しを飾る機能は、深刻な信頼性の問題を隠す可能性があります。幸運
こんにちは。 Eye on AIへようこそ。今回の版では…AIの信頼性の問題…トランプがAI法案の青写真を議会に送ります…OpenAIが製品をスーパーアプリに統合して採用します。多くの方々のように私もAIエージェントで遊び始めました。私はしばしば研究にこのツールを使用します。このツールはかなりうまく機能し、かなりの時間を節約します。しかし、いわゆる「深層研究」エージェントが発売されてから1年を超え、これはAIの世界で比較的成熟した製品となっています。私はまた、他のタスクのためにコンピュータを使用する新しいエージェントを試してみました。そしてこれまでの私の経験によると、これらのエージェントは非常に一貫性がありません。たとえば、多くのツールにアクセスできる仮想マシンで動作するエージェントデバイスであるPerplexityのコンピュータは、私が住んでいる地域のリサイクルセンターの返却場所を予約するのに非常に役立ちました。 (AnthropicのClaude Sonnet 4.6を基本推論エンジンとして使用しました。)しかし、今後の出張のためのフライトオプションを調査するように求めたとき、AI会社が常に話している標準的なユースケースの1つである旅行予約にもかかわらず、作業を完了できませんでした。エージェントが行ったことは、45分間試している間に多くのトークンを消費したことです。先週、ロンドンで政府および技術政策担当者のために主催されたAnthropic AIエージェントのデモイベントでは、Claude Coworkが最初にExcelスプレッドシートで非常に単純な照合操作を実行するのが難しいことを見ました。後で、見た目に問題のない洗練された予算予測モデルを作成したにもかかわらず。私はまた、Claude Codeは表面的には素晴らしいようですが、基本的なゲームロジックがまったく理解されていない単純なテキストベースのビジネス戦略ゲームを作成するのを見ました。AIエージェントの信頼性評価不安定性は現在、AIエージェントの主な欠点です。これはAI Snakeoilという本を共同執筆し、現在「AI As Normal Technology」ブログを共同執筆しているプリンストン大学のSayash KapoorとArvind Narayananがよく言及する要点です。そして数週間前、彼らはAIエージェントの信頼性について体系的に考え、主要なAIモデルをベンチマークしようとする他のコンピュータ科学者4人と共同で書かれた研究論文を発表しました。「AIエージェント信頼性の科学に向けて」というタイトルのこの論文は、ほとんどのAIモデルが非常に信頼できないパフォーマンスを可能にする測定基準であるタスクの平均精度に基づいてベンチマークされていることを指摘しています。代わりに、彼らは4つの側面で信頼性を見ています。一貫性(同じ操作を同じ方法で実行するように求められたら、常に同じことをしますか?);堅牢性(条件が理想的でない場合でも動作できますか?)校正(ユーザーに確実性に対する正確な感覚を提供しますか?)と安全性(彼らが混乱したとき、その間違いはどれほど破局的である可能性がありますか?)彼らはまた、この4つの領域を14の特定の指標に分割し、2025年11月末までの18ヶ月間にリリースされたいくつかのモデルをテストしました(したがって、OpenAIのGPT-5.2、AntropicのClaude Opus 4.5、GoogleのGemini 3 Proがテストされた最も先進的なモデルでした)。彼らは2つのベンチマークテストでモデルをテストしましたが、そのうちの1つはエージェントタスクの一般的なベンチマークで、もう1つはカスタマーサポートクエリとタスクをシミュレートしました。彼らは、それぞれの連続モデルのリリースで信頼性が向上したが、平均精度の数値ほど向上しなかったことを発見した。実際、一般エージェントのベンチマークでは信頼性の向上速度が精度の向上速度の半分であるのに対し、カスタマーサービスのベンチマークでは7分の1でした!信頼性指標は現在の作業に依存します。この論文で調査した4つの信頼性の分野で、Claude Opus 4.5とGemini 3...


