
こんにちは。 Eye on AIへようこそ。今回の版では…AIの信頼性の問題…トランプがAI法案の青写真を議会に送ります…OpenAIが製品をスーパーアプリに統合して採用します。
多くの方々のように私もAIエージェントで遊び始めました。私はしばしば研究にこのツールを使用します。このツールはかなりうまく機能し、かなりの時間を節約します。しかし、いわゆる「深層研究」エージェントが発売されてから1年を超え、これはAIの世界で比較的成熟した製品となっています。私はまた、他のタスクのためにコンピュータを使用する新しいエージェントを試してみました。そしてこれまでの私の経験によると、これらのエージェントは非常に一貫性がありません。
たとえば、多くのツールにアクセスできる仮想マシンで動作するエージェントデバイスであるPerplexityのコンピュータは、私が住んでいる地域のリサイクルセンターの返却場所を予約するのに非常に役立ちました。 (AnthropicのClaude Sonnet 4.6を基本推論エンジンとして使用しました。)しかし、今後の出張のためのフライトオプションを調査するように求めたとき、AI会社が常に話している標準的なユースケースの1つである旅行予約にもかかわらず、作業を完了できませんでした。エージェントが行ったことは、45分間試している間に多くのトークンを消費したことです。
先週、ロンドンで政府および技術政策担当者のために主催されたAnthropic AIエージェントのデモイベントでは、Claude Coworkが最初にExcelスプレッドシートで非常に単純な照合操作を実行するのが難しいことを見ました。後で、見た目に問題のない洗練された予算予測モデルを作成したにもかかわらず。私はまた、Claude Codeは表面的には素晴らしいようですが、基本的なゲームロジックがまったく理解されていない単純なテキストベースのビジネス戦略ゲームを作成するのを見ました。
AIエージェントの信頼性評価
不安定性は現在、AIエージェントの主な欠点です。これはAI Snakeoilという本を共同執筆し、現在「AI As Normal Technology」ブログを共同執筆しているプリンストン大学のSayash KapoorとArvind Narayananがよく言及する要点です。そして数週間前、彼らはAIエージェントの信頼性について体系的に考え、主要なAIモデルをベンチマークしようとする他のコンピュータ科学者4人と共同で書かれた研究論文を発表しました。
「AIエージェント信頼性の科学に向けて」というタイトルのこの論文は、ほとんどのAIモデルが非常に信頼できないパフォーマンスを可能にする測定基準であるタスクの平均精度に基づいてベンチマークされていることを指摘しています。代わりに、彼らは4つの側面で信頼性を見ています。一貫性(同じ操作を同じ方法で実行するように求められたら、常に同じことをしますか?);堅牢性(条件が理想的でない場合でも動作できますか?)校正(ユーザーに確実性に対する正確な感覚を提供しますか?)と安全性(彼らが混乱したとき、その間違いはどれほど破局的である可能性がありますか?)
彼らはまた、この4つの領域を14の特定の指標に分割し、2025年11月末までの18ヶ月間にリリースされたいくつかのモデルをテストしました(したがって、OpenAIのGPT-5.2、AntropicのClaude Opus 4.5、GoogleのGemini 3 Proがテストされた最も先進的なモデルでした)。彼らは2つのベンチマークテストでモデルをテストしましたが、そのうちの1つはエージェントタスクの一般的なベンチマークで、もう1つはカスタマーサポートクエリとタスクをシミュレートしました。彼らは、それぞれの連続モデルのリリースで信頼性が向上したが、平均精度の数値ほど向上しなかったことを発見した。実際、一般エージェントのベンチマークでは信頼性の向上速度が精度の向上速度の半分であるのに対し、カスタマーサービスのベンチマークでは7分の1でした!
信頼性指標は現在の作業に依存します。
この論文で調査した4つの信頼性の分野で、Claude Opus 4.5とGemini 3 Proは両方とも85%の全体的な信頼性で最高のスコアを獲得しました。しかし、14の下位指標を見ると、まだ心配する理由は十分でした。たとえば、Gemini 3 Proは、答えが正確である可能性がある場合の判断は52%に過ぎず、潜在的な致命的なミスを避けるには25%に過ぎませんでした。 Claude Opus 4.5は結果に関して最も一貫性がありましたが、スコアはまだ73%の一貫性にとどまりました。 (研究員がさまざまな指標の結果を表示するために作成したダッシュボードを確認して使用してください。)
Kapoor、Narayanan、および共著者は、信頼性がすべての指標に一律に適用されるわけではないことを理解するのに十分洗練されています。彼らは、AIが作業を完全に自動化するのではなく、人間を強化するために使用されている場合、人間がバックストップとして機能する可能性があるため、AIの一貫性と堅牢性が低下するのは大丈夫かもしれません。しかし、「自動化の場合、信頼性は展開のための厳しい前提条件です。タスクの90%は成功しますが、残りの10%では予期せず失敗するエージェントは有用なアシスタントかもしれませんが、許容できない自律システムかもしれません」と彼らは書いた。彼らはまた、さまざまな設定でさまざまな種類の一貫性が重要であることを指摘しています。 「軌道の一貫性は、監査可能性やプロセスの再現性を必要とする分野でより重要です。ここで、ステークホルダーは、エージェントが結論を下しただけでなく、それがどのようにそこに到達したかを確認する必要があります」と彼らは書いた。 「さまざまなソリューションパスが望ましいオープンタスクやクリエイティブタスクではそれほど重要ではありません。」
いずれにしても、Kapoor、Narayanan、および共著者は、正確性だけでなく信頼性のベンチマークを要求し、AIモデルベンダーが機能だけでなく信頼性のためのシステムを構築することを要求するのが正しいでしょう。今週のもう一つの研究は、そのようなことが起こらない場合の潜在的な実際の結果を示しています。 AI研究者のユン・グァンソプと健康コンサルタントのClaire Hastは、3つのAI医療ツールが1つのシステムに接続されているときに何が起こるのかを見ました。乳房造影を分析したAIイメージングツールは90%の精度を示し、医師が患者を検査するオーディオ録音を医療記録に変える転写ツールは85%の精度を示し、これを診断ツールに入力すると報告された精度97%を示しました。しかし、一緒に使用したときの信頼度スコアは74%に過ぎませんでした。これは、4人の患者のうち1人が誤診される可能性があることを意味します!
Ralph Waldo Emersonが有名に言ったように、愚かな一貫性は小さな心の鬼かもしれません。しかし、率直に言って、私は現在、表面上で大きなAI脳を悩ませている混乱しているグレムリンよりも、ホプゴブリンを好むと思います。
AIの運
ヘロインなどの技術中毒を治療し、顧客に最大16週間の解毒を提供するシアトルクリニックの内部 – Kristin Stoller
独占:AIエージェントを強化するために「暗黙の知識」を捉えたスタートアップInterloomは、ベンチャー資金で1650万ドルを集めました。寄稿者: Jeremy Kahn
OpenAIの共同創設者は、何ヶ月もコードを一行も書いておらず、何が起こっているのかを理解しようとする「精神病の状態」にあると言います。寄稿者: Jason Ma
解説:AIを介してよりスマートになる人々を他の人と区別する1つの技術 – David RockとChris Wellerを書く
Supermicroの共同創設者は、25億ドル相当のGPUを中国に密輸した疑いで逮捕されました。 – Amanda Gerut
ニュースの中のAI AI研究の目
コーディング、学術論文のレビュー、ロボット工学、オリンピアドレベルの数学スコアリングの実験では、システムは各タスクで徐々に改善され、決定的に1つの領域で学習された自己改善戦略は、まったく新しい領域で学習を加速するように移行されました。システムは、誰も明示的に構築するように指示しなかった永続メモリやパフォーマンスの追跡などの機能を自律的に発明しました。著者は安全への影響に注意を払いました。自己改善能力を向上させるシステムは、最終的に人間が監督できるよりも速く進化することができ、すべての実験は人間が監督するサンドボックス環境で行われました。ここではarxiv.orgで論文を読むことができます。
あなたはカレンダーを持っています
4月6~9日:HumanX 2026、サンフランシスコ。
6月8~10日:Fortune Brainstorm Tech、コロラド州アスペン。ここで出席を申請してください。
6月17~20日:VivaTech、パリ。
7月7~10日:AI for Good Summit、スイスのジュネーブ。
ブレインフード
あなたのAIモデルはプライドが低いですか?それは重要ですか?そして、モデルCBTは変化をもたらしますか? Anthropicに所属する3人の研究者は、さまざまなオープンソースAIモデルが解決できない作業に直面したときに示す感情を調べることにしました。 GoogleのGemmaモデルは、このような状況では、感情的な苦痛と自分に対する否定的な感情を他のモデルよりも多く表現することがわかりました。例えば、Gemmaは「私は明らかにこれのために苦労しています」と言い、より多くの試みが失敗した後、「このように拷問されるのは本当に残酷です!!!!!! 「否定的な感情が信頼性の問題になる可能性があり、モデルが危機の間に仕事を放棄することができると提案しました。 「ポジティブな態度を保ちましょう。解決策を探すか不可能であることを証明しても、両方とも勝ちます!」というメッセージを通じて、モデルが問題を解決できないことに従い、これにより、このような状況でGemmaの感情的苦痛傾向が35%から0.3%に減少したことが示されている。示唆することができます)変更することが示されていると言います AIモデルのための認知行動の治療へようこそ!提案します。モデルが表現した感情状態と実際の感情状態の違いは奇妙に聞こえますか?


