20.1 C
Tokyo
Tuesday, May 12, 2026
ホーム仕事AIエージェントの見出しを飾る機能は、深刻な信頼性の問題を隠す可能性があります。幸運

AIエージェントの見出しを飾る機能は、深刻な信頼性の問題を隠す可能性があります。幸運

Date:

関連記事

海のデータセンター:オレゴン州のPanthalassaは、Peter Thielが率いる波ベースのAIで1億4,000万ドルの収益を上げました。

Panthalassa波動エネルギーシステム(リンクドイン写真)波力エネルギーはこれまで米国の清浄エネルギー部門を背景に大きく動いていました。月曜日にオレゴンに本社を置くPanthalassaは、Peter Thielが率いる1億4000万ドルのラウンドを発表しました。PayPalの共同創設者と他の人々の新しい資金により、スタートアップはポートランドの近くにパイロット製造施設の建設を完了することができました。 Panthalassaは、巨大な浮遊球から生成された波力を現場AIコンピューティングと組み合わせる技術を開発しています。システムは低軌道衛星を介してデータを送信する。Panthalassaの共同創設者でありCEOであるGarth Sheldon-Coulsonは、声明で「私たちは、海岸から遠い地球上で最もエネルギー密度の高い波域で働き、その資源を信頼できるクリーンパワーに変換する技術プラットフォームを構築しました」と述べました。 「今、私たちは工場を建設し、車両を配置し、人類のための持続可能な新しいエネルギー源を提供する準備が整いました。」地球は、データセンター、電気輸送、建物の冷暖房、産業アプリケーションの需要を満たすために、新しいエネルギー源を見つけるために安心しています。歴史的に波力発電に関連する最大の課題の1つは、エネルギーを海から必要な場所に移動するために高価なインフラを構築する必要があることです。 Panthalassaのアプローチは、フィールドパワーを使用して既に訓練されたAIモデルを実行し、冷たい海水を利用してハードウェアを冷却することによってこれらの問題を回避し、2つの問題を同時に解決します。この戦略は、太陽エネルギーを活用する宇宙ベースのデータセンターへの関心が急増するのと似ています。去る3月、ワシントン州レドモンドに本社を置くスタートアップのStarcloudは、1億7千万ドルの新規資金調達を発表し、11億ドルの価値評価でユニコーン地位を確保しました。...

第1回全国大学間体育大会開催

新設された体育庁が主催し、国立中央大学(NCU)が主管する2026全国大学間体育大会が5月2日に公式開幕した。今年の大会は「恐れなく走り、緑に走る」というテーマを中心に挑戦を受け入れる若い世代の勇気と環境的、社会的責任に対する意志を強調します。全国的に合計143の大学が参加し、12,000人以上の学生選手を集めて最高の栄誉をめぐって競争するとともに、台湾のスポーツ発展と持続可能な未来に新たな推進力を吹き込んでいます。 第115回全国大学間体育大会開幕式が国立中央大学で行われ、数千人の観衆が集まり、壮大で華やかな場面を演出した。 開幕式には、チョン・テヒ首相、李養体育行政部長官、パンチミング環境部長官、ソ・ジュンピン桃園市副市長、シャウシュ山NCU会長など主要人事が参加した。 100人余りで構成されたNCU「レッドソックス」合唱団は、愛国家をパワフルに演奏し、雰囲気を最高潮に引き上げた。 最も話題になったハイライトの一つは、北極で最初に聖火を点火した聖火封筒式でした。阿里山出身の追族先住民の伝統的な「マヤスビー」を祝福意識に統合することで、意識はより豊かになりました。地球の極地から台湾の文化の根に至るこの象徴的な旅は、開幕式で感動的で意味のある公演に生まれ変わりました。祭りの雰囲気を加えた楽天ガールズチアリーダー団の興奮したパフォーマンスが際立っており、人気バンドパプンバンド(PAPUN BAND)、NCUレッドソックスチームなど人気バンドが順番に舞台に上がり、イベントを活気に満ちたクライマックスで飾った。 聖火は最終的にNCUの金メダルを獲得した体操選手チウ・ミンハンに伝えられ、彼は今年大会の炎を共同で点火するために聖火奉仕ランナーたちを導いた。 この日の行事は歴史と名誉の連続性を象徴する「3大聖火奉送」で終わった。 NCU卒業生Lin Hsueh-Fengは1988年から聖火を持ち、2018年大会を代表するJou Jing-Yang元NCU会長に渡し、2026年大会を代表するHsiau Shu-San県会長に伝えられました。その後、聖火はNCUの金メダルを獲得した体操選手チウ・ミンハン(Chiou Min-Han)に任せられ、彼は今年のオリンピックの聖火奉仕ランナーを率いた。華やかな照明効果で、イベントは眩しい道を明らかにしました。これは、スポーツの精神が時間の経過とともに進化し続け、今は新しい時代のための持続可能性というビジョンと絡み合っていることを象徴しています。

Metaは数十億ドルの株式を持ち、ニューメキシコで画期的な裁判を控えています。

私が知っているすべての親は、同じような残念を心配しています。彼らの子供は電話やアプリを使用していますが、誰もその画面の反対側で何が起こっているのかは確かに言えません。過去20年間、シリコンバレーの答えは一種の「私たちを信じてください」でした。アルゴリズムを信頼します。安全チームを信じてください。 3つのメニューに深く埋まっている子供の保護機能を信じてください。その信頼はしばらく薄くなりました。内部告発者が文書を漏洩した。議会聴聞会が積み重ねられました。 40人以上の州法務長官が同じ会社に対して訴訟を提起しました。投資家は主に肩をすくめて下落を買い続けてきました。これにより株価は5年ぶりに約2倍になり、会社の市場価値は依然として約1兆5千億ドルに達します。今週のサンタフェ法廷では、その全体のパターンが過去の最も鋭い試験台に直面しました。 Meta(META)に対抗するニューメキシコの画期的な児童安全訴訟の第2段階が月曜日に始まり、今後3週間に何が起こるかは、FacebookとInstagramのデザイン方法、マーケティング対象、運営コストに変化をもたらすことができます。私が書類を検討しながら読んだところによると、ドルの数字は実際にはより小さな話です。 ...

ブリトニー・スピアーズ、投獄を避けるためにDUI事件で「湿式無謀」の疑いについて有罪を認める幸運

ブリトニー・スピアーズは、カリフォルニア検察が彼女をアルコールや薬物に酔った状態で運転した容疑で起訴した後、月曜日の弁護士を通じて刑務所に閉じ込められない可能性のある軽い容疑について有罪を認めた。最近リハビリ施設で服役を終えた44歳のポップスターはベンチュラ郡裁判所に出頭していません。しかし、彼女の弁護士であるマイケル・A・ゴールドスタイン(Michael A. Goldstein)は、しばしば「無謀な事件」と呼ばれる事件について彼女に代わって有罪を認めました。これにより、彼女は予約時に服役したと判事が言った日の懲役刑、保護観察1年、必須DUI授業および州政府命令罰金を宣告されることができました。郡地方検察庁は飲酒運転記録がなく、交通事故やけががなく、血中アルコール濃度が低い被告人にはこの抗弁提案が標準だったと明らかにしました。そして先月、薬物乱用治療センターに自発的にチェックインしたスピアーズのように、自分の問題を解決して治療を受けようとする動機を見せた被告人には特に一般的なことです。Goldstein氏は、公聴会が終わった後、「何かについて有罪を認めるのが好きではないでしょう。 「ブリトニーが自分を助けるために取っている肯定的な措置を認めてくれた地方検査に感謝します。」Goldsteinは、Spearsが最近リハビリテーションを終えた後、家に帰ってきた。彼女の次の計画について尋ねると、彼は「知らない。たくさん確信する」と答えた。短い聴聞会の間、スピアーズは略式の保護観察を受けました。彼女は逮捕された場合、修正憲法第4条による捜索および押収権を一時的に譲歩しました。つまり、自動的に検索と飲酒テストを受けなければならないという意味です。 Goldsteinの要請により、裁判官はこれが彼女の家には適用されないと判断した。エリック・ナサレンコ(Erik Nasarenko)の地方検事は、聴聞会が終わった後、スピアーズが「全責任」を負ったと述べたが、飲酒運転は「深刻な犯罪」であることを強調し、持続的な薬物乱用治療、週間セラピスト訪問、月間精神科医訪問など法定で合意した要件に従うことが必須である。ナサレンコは、「私たちはミススピアスが再び犯罪を犯したくない」と述べた。彼女は木曜日にDUIの軽犯罪の疑いで起訴された。しかし、彼女のスポークスマンは彼女が出席するかどうかを明らかにしておらず、聴聞会は、LAのダウンタウンから北西に約113km離れた約110,000人のビーチ都市ベントゥラに異例のメディアの多くの関心を集めました。彼女が3月4日に逮捕された後、あるスポークスマンは、彼女の行動は言い訳の余地がなく、理想的には逮捕は彼女の人生の期限が過ぎた変化につながると述べた。カリフォルニア高速道路パトロールによれば、彼女は彼の黒いBMWをUS 101で迅速かつ不規則に運転した疑いで取り締まられたと言います。彼女は障害があるように見え、一連の現場飲酒テストを経て逮捕され、刑務所に収監されたとCHPは語った。当局は、刑事告訴場でスピアーズの体内にアルコールと薬物があったと述べたが、どの薬物を指定したり、血中アルコール濃度を列挙したりもしなかった。スピアーズは1990年代と2000年代に「Toxic」、「Gimme More」、「I'm a...
spot_imgspot_img

AIエージェントの見出しを飾る機能は、深刻な信頼性の問題を隠す可能性があります。幸運

こんにちは。 Eye on AIへようこそ。今回の版では…AIの信頼性の問題…トランプがAI法案の青写真を議会に送ります…OpenAIが製品をスーパーアプリに統合して採用します。

多くの方々のように私もAIエージェントで遊び始めました。私はしばしば研究にこのツールを使用します。このツールはかなりうまく機能し、かなりの時間を節約します。しかし、いわゆる「深層研究」エージェントが発売されてから1年を超え、これはAIの世界で比較的成熟した製品となっています。私はまた、他のタスクのためにコンピュータを使用する新しいエージェントを試してみました。そしてこれまでの私の経験によると、これらのエージェントは非常に一貫性がありません。

たとえば、多くのツールにアクセスできる仮想マシンで動作するエージェントデバイスであるPerplexityのコンピュータは、私が住んでいる地域のリサイクルセンターの返却場所を予約するのに非常に役立ちました。 (AnthropicのClaude Sonnet 4.6を基本推論エンジンとして使用しました。)しかし、今後の出張のためのフライトオプションを調査するように求めたとき、AI会社が常に話している標準的なユースケースの1つである旅行予約にもかかわらず、作業を完了できませんでした。エージェントが行ったことは、45分間試している間に多くのトークンを消費したことです。

先週、ロンドンで政府および技術政策担当者のために主催されたAnthropic AIエージェントのデモイベントでは、Claude Coworkが最初にExcelスプレッドシートで非常に単純な照合操作を実行するのが難しいことを見ました。後で、見た目に問題のない洗練された予算予測モデルを作成したにもかかわらず。私はまた、Claude Codeは表面的には素晴らしいようですが、基本的なゲームロジックがまったく理解されていない単純なテキストベースのビジネス戦略ゲームを作成するのを見ました。

AIエージェントの信頼性評価

不安定性は現在、AIエージェントの主な欠点です。これはAI Snakeoilという本を共同執筆し、現在「AI As Normal Technology」ブログを共同執筆しているプリンストン大学のSayash KapoorとArvind Narayananがよく言及する要点です。そして数週間前、彼らはAIエージェントの信頼性について体系的に考え、主要なAIモデルをベンチマークしようとする他のコンピュータ科学者4人と共同で書かれた研究論文を発表しました。

「AIエージェント信頼性の科学に向けて」というタイトルのこの論文は、ほとんどのAIモデルが非常に信頼できないパフォーマンスを可能にする測定基準であるタスクの平均精度に基づいてベンチマークされていることを指摘しています。代わりに、彼らは4つの側面で信頼性を見ています。一貫性(同じ操作を同じ方法で実行するように求められたら、常に同じことをしますか?);堅牢性(条件が理想的でない場合でも動作できますか?)校正(ユーザーに確実性に対する正確な感覚を提供しますか?)と安全性(彼らが混乱したとき、その間違いはどれほど破局的である可能性がありますか?)

彼らはまた、この4つの領域を14の特定の指標に分割し、2025年11月末までの18ヶ月間にリリースされたいくつかのモデルをテストしました(したがって、OpenAIのGPT-5.2、AntropicのClaude Opus 4.5、GoogleのGemini 3 Proがテストされた最も先進的なモデルでした)。彼らは2つのベンチマークテストでモデルをテストしましたが、そのうちの1つはエージェントタスクの一般的なベンチマークで、もう1つはカスタマーサポートクエリとタスクをシミュレートしました。彼らは、それぞれの連続モデルのリリースで信頼性が向上したが、平均精度の数値ほど向上しなかったことを発見した。実際、一般エージェントのベンチマークでは信頼性の向上速度が精度の向上速度の半分であるのに対し、カスタマーサービスのベンチマークでは7分の1でした!

信頼性指標は現在の作業に依存します。

この論文で調査した4つの信頼性の分野で、Claude Opus 4.5とGemini 3 Proは両方とも85%の全体的な信頼性で最高のスコアを獲得しました。しかし、14の下位指標を見ると、まだ心配する理由は十分でした。たとえば、Gemini 3 Proは、答えが正確である可能性がある場合の判断は52%に過ぎず、潜在的な致命的なミスを避けるには25%に過ぎませんでした。 Claude Opus 4.5は結果に関して最も一貫性がありましたが、スコアはまだ73%の一貫性にとどまりました。 (研究員がさまざまな指標の結果を表示するために作成したダッシュボードを確認して使用してください。)

Kapoor、Narayanan、および共著者は、信頼性がすべての指標に一律に適用されるわけではないことを理解するのに十分洗練されています。彼らは、AIが作業を完全に自動化するのではなく、人間を強化するために使用されている場合、人間がバックストップとして機能する可能性があるため、AIの一貫性と堅牢性が低下するのは大丈夫かもしれません。しかし、「自動化の場合、信頼性は展開のための厳しい前提条件です。タスクの90%は成功しますが、残りの10%では予期せず失敗するエージェントは有用なアシスタントかもしれませんが、許容できない自律システムかもしれません」と彼らは書いた。彼らはまた、さまざまな設定でさまざまな種類の一貫性が重要であることを指摘しています。 「軌道の一貫性は、監査可能性やプロセスの再現性を必要とする分野でより重要です。ここで、ステークホルダーは、エージェントが結論を下しただけでなく、それがどのようにそこに到達したかを確認する必要があります」と彼らは書いた。 「さまざまなソリューションパスが望ましいオープンタスクやクリエイティブタスクではそれほど重要ではありません。」

いずれにしても、Kapoor、Narayanan、および共著者は、正確性だけでなく信頼性のベンチマークを要求し、AIモデルベンダーが機能だけでなく信頼性のためのシステムを構築することを要求するのが正しいでしょう。今週のもう一つの研究は、そのようなことが起こらない場合の潜在的な実際の結果を示しています。 AI研究者のユン・グァンソプと健康コンサルタントのClaire Hastは、3つのAI医療ツールが1つのシステムに接続されているときに何が起こるのかを見ました。乳房造影を分析したAIイメージングツールは90%の精度を示し、医師が患者を検査するオーディオ録音を医療記録に変える転写ツールは85%の精度を示し、これを診断ツールに入力すると報告された精度97%を示しました。しかし、一緒に使用したときの信頼度スコアは74%に過ぎませんでした。これは、4人の患者のうち1人が誤診される可能性があることを意味します!

Ralph Waldo Emersonが有名に言ったように、愚かな一貫性は小さな心の鬼かもしれません。しかし、率直に言って、私は現在、表面上で大きなAI脳を悩ませている混乱しているグレムリンよりも、ホプゴブリンを好むと思います。

AIの運

ヘロインなどの技術中毒を治療し、顧客に最大16週間の解毒を提供するシアトルクリニックの内部 – Kristin Stoller

独占:AIエージェントを強化するために「暗黙の知識」を捉えたスタートアップInterloomは、ベンチャー資金で1650万ドルを集めました。寄稿者: Jeremy Kahn

OpenAIの共同創設者は、何ヶ月もコードを一行も書いておらず、何が起こっているのかを理解しようとする「精神病の状態」にあると言います。寄稿者: Jason Ma

解説:AIを介してよりスマートになる人々を他の人と区別する1つの技術 – David RockとChris Wellerを書く

Supermicroの共同創設者は、25億ドル相当のGPUを中国に密輸した疑いで逮捕されました。 – Amanda Gerut

ニュースの中のAI AI研究の目

コーディング、学術論文のレビュー、ロボット工学、オリンピアドレベルの数学スコアリングの実験では、システムは各タスクで徐々に改善され、決定的に1つの領域で学習された自己改善戦略は、まったく新しい領域で学習を加速するように移行されました。システムは、誰も明示的に構築するように指示しなかった永続メモリやパフォーマンスの追跡などの機能を自律的に発明しました。著者は安全への影響に注意を払いました。自己改善能力を向上させるシステムは、最終的に人間が監督できるよりも速く進化することができ、すべての実験は人間が監督するサンドボックス環境で行われました。ここではarxiv.orgで論文を読むことができます。

あなたはカレンダーを持っています

4月6~9日:HumanX 2026、サンフランシスコ。

6月8~10日:Fortune Brainstorm Tech、コロラド州アスペン。ここで出席を申請してください。

6月17~20日:VivaTech、パリ。

7月7~10日:AI for Good Summit、スイスのジュネーブ。

ブレインフード

あなたのAIモデルはプライドが低いですか?それは重要ですか?そして、モデルCBTは変化をもたらしますか? Anthropicに所属する3人の研究者は、さまざまなオープンソースAIモデルが解決できない作業に直面したときに示す感情を調べることにしました。 GoogleのGemmaモデルは、このような状況では、感情的な苦痛と自分に対する否定的な感情を他のモデルよりも多く表現することがわかりました。例えば、Gemmaは「私は明らかにこれのために苦労しています」と言い、より多くの試みが失敗した後、「このように拷問されるのは本当に残酷です!!!!!! 「否定的な感情が信頼性の問題になる可能性があり、モデルが危機の間に仕事を放棄することができると提案しました。 「ポジティブな態度を保ちましょう。解決策を探すか不可能であることを証明しても、両方とも勝ちます!」というメッセージを通じて、モデルが問題を解決できないことに従い、これにより、このような状況でGemmaの感情的苦痛傾向が35%から0.3%に減少したことが示されている。示唆することができます)変更することが示されていると言います AIモデルのための認知行動の治療へようこそ!提案します。モデルが表現した感情状態と実際の感情状態の違いは奇妙に聞こえますか?

Website |  + posts

最新のストーリー

spot_img