ホームタグAIエージェントの見出しを飾る機能は深刻な信頼性の問題を隠す可能性があります幸運

Tag: AIエージェントの見出しを飾る機能は深刻な信頼性の問題を隠す可能性があります幸運

AIエージェントの見出しを飾る機能は、深刻な信頼性の問題を隠す可能性があります。幸運

こんにちは。 Eye on AIへようこそ。今回の版では…AIの信頼性の問題…トランプがAI法案の青写真を議会に送ります…OpenAIが製品をスーパーアプリに統合して採用します。多くの方々のように私もAIエージェントで遊び始めました。私はしばしば研究にこのツールを使用します。このツールはかなりうまく機能し、かなりの時間を節約します。しかし、いわゆる「深層研究」エージェントが発売されてから1年を超え、これはAIの世界で比較的成熟した製品となっています。私はまた、他のタスクのためにコンピュータを使用する新しいエージェントを試してみました。そしてこれまでの私の経験によると、これらのエージェントは非常に一貫性がありません。たとえば、多くのツールにアクセスできる仮想マシンで動作するエージェントデバイスであるPerplexityのコンピュータは、私が住んでいる地域のリサイクルセンターの返却場所を予約するのに非常に役立ちました。（AnthropicのClaude Sonnet 4.6を基本推論エンジンとして使用しました。）しかし、今後の出張のためのフライトオプションを調査するように求めたとき、AI会社が常に話している標準的なユースケースの1つである旅行予約にもかかわらず、作業を完了できませんでした。エージェントが行ったことは、45分間試している間に多くのトークンを消費したことです。先週、ロンドンで政府および技術政策担当者のために主催されたAnthropic AIエージェントのデモイベントでは、Claude Coworkが最初にExcelスプレッドシートで非常に単純な照合操作を実行するのが難しいことを見ました。後で、見た目に問題のない洗練された予算予測モデルを作成したにもかかわらず。私はまた、Claude Codeは表面的には素晴らしいようですが、基本的なゲームロジックがまったく理解されていない単純なテキストベースのビジネス戦略ゲームを作成するのを見ました。AIエージェントの信頼性評価不安定性は現在、AIエージェントの主な欠点です。これはAI Snakeoilという本を共同執筆し、現在「AI As Normal Technology」ブログを共同執筆しているプリンストン大学のSayash KapoorとArvind Narayananがよく言及する要点です。そして数週間前、彼らはAIエージェントの信頼性について体系的に考え、主要なAIモデルをベンチマークしようとする他のコンピュータ科学者4人と共同で書かれた研究論文を発表しました。「AIエージェント信頼性の科学に向けて」というタイトルのこの論文は、ほとんどのAIモデルが非常に信頼できないパフォーマンスを可能にする測定基準であるタスクの平均精度に基づいてベンチマークされていることを指摘しています。代わりに、彼らは4つの側面で信頼性を見ています。一貫性（同じ操作を同じ方法で実行するように求められたら、常に同じことをしますか？）;堅牢性（条件が理想的でない場合でも動作できますか？）校正（ユーザーに確実性に対する正確な感覚を提供しますか？）と安全性（彼らが混乱したとき、その間違いはどれほど破局的である可能性がありますか？）彼らはまた、この4つの領域を14の特定の指標に分割し、2025年11月末までの18ヶ月間にリリースされたいくつかのモデルをテストしました（したがって、OpenAIのGPT-5.2、AntropicのClaude Opus 4.5、GoogleのGemini 3 Proがテストされた最も先進的なモデルでした）。彼らは2つのベンチマークテストでモデルをテストしましたが、そのうちの1つはエージェントタスクの一般的なベンチマークで、もう1つはカスタマーサポートクエリとタスクをシミュレートしました。彼らは、それぞれの連続モデルのリリースで信頼性が向上したが、平均精度の数値ほど向上しなかったことを発見した。実際、一般エージェントのベンチマークでは信頼性の向上速度が精度の向上速度の半分であるのに対し、カスタマーサービスのベンチマークでは7分の1でした！信頼性指標は現在の作業に依存します。この論文で調査した4つの信頼性の分野で、Claude Opus 4.5とGemini 3...

必読

マーケティング

Company

Hasshinaは、「正確で信頼できるニュースを、より多くの人へ届けること」を使命とするニュースプラットフォームです。日々変化する世界の出来事を分かりやすく、迅速に伝えることを通じて、読者が正しい判断を下せるための情報基盤を提供することを目指しています。

Latest

Cogent Communications Holdings、第1四半期の損失幅の縮小報告。収益3％減少 – Alphastreet

マーケティング May 5, 2026 0

海のデータセンター：オレゴン州のPanthalassaは、Peter Thielが率いる波ベースのAIで1億4,000万ドルの収益を上げました。

起動する May 5, 2026 0

Panthalassa波動エネルギーシステム（リンクドイン写真）波力エネルギーはこれまで米国の清浄エネルギー部門を背景に大きく動いていました。月曜日にオレゴンに本社を置くPanthalassaは、Peter Thielが率いる1億4000万ドルのラウンドを発表しました。PayPalの共同創設者と他の人々の新しい資金により、スタートアップはポートランドの近くにパイロット製造施設の建設を完了することができました。 Panthalassaは、巨大な浮遊球から生成された波力を現場AIコンピューティングと組み合わせる技術を開発しています。システムは低軌道衛星を介してデータを送信する。Panthalassaの共同創設者でありCEOであるGarth Sheldon-Coulsonは、声明で「私たちは、海岸から遠い地球上で最もエネルギー密度の高い波域で働き、その資源を信頼できるクリーンパワーに変換する技術プラットフォームを構築しました」と述べました。「今、私たちは工場を建設し、車両を配置し、人類のための持続可能な新しいエネルギー源を提供する準備が整いました。」地球は、データセンター、電気輸送、建物の冷暖房、産業アプリケーションの需要を満たすために、新しいエネルギー源を見つけるために安心しています。歴史的に波力発電に関連する最大の課題の1つは、エネルギーを海から必要な場所に移動するために高価なインフラを構築する必要があることです。 Panthalassaのアプローチは、フィールドパワーを使用して既に訓練されたAIモデルを実行し、冷たい海水を利用してハードウェアを冷却することによってこれらの問題を回避し、2つの問題を同時に解決します。この戦略は、太陽エネルギーを活用する宇宙ベースのデータセンターへの関心が急増するのと似ています。去る3月、ワシントン州レドモンドに本社を置くスタートアップのStarcloudは、1億7千万ドルの新規資金調達を発表し、11億ドルの価値評価でユニコーン地位を確保しました。...

第1回全国大学間体育大会開催

プレスリリース May 5, 2026 0

新設された体育庁が主催し、国立中央大学（ＮＣＵ）が主管する２０２６全国大学間体育大会が５月２日に公式開幕した。今年の大会は「恐れなく走り、緑に走る」というテーマを中心に挑戦を受け入れる若い世代の勇気と環境的、社会的責任に対する意志を強調します。全国的に合計143の大学が参加し、12,000人以上の学生選手を集めて最高の栄誉をめぐって競争するとともに、台湾のスポーツ発展と持続可能な未来に新たな推進力を吹き込んでいます。第115回全国大学間体育大会開幕式が国立中央大学で行われ、数千人の観衆が集まり、壮大で華やかな場面を演出した。開幕式には、チョン・テヒ首相、李養体育行政部長官、パンチミング環境部長官、ソ・ジュンピン桃園市副市長、シャウシュ山NCU会長など主要人事が参加した。 100人余りで構成されたNCU「レッドソックス」合唱団は、愛国家をパワフルに演奏し、雰囲気を最高潮に引き上げた。最も話題になったハイライトの一つは、北極で最初に聖火を点火した聖火封筒式でした。阿里山出身の追族先住民の伝統的な「マヤスビー」を祝福意識に統合することで、意識はより豊かになりました。地球の極地から台湾の文化の根に至るこの象徴的な旅は、開幕式で感動的で意味のある公演に生まれ変わりました。祭りの雰囲気を加えた楽天ガールズチアリーダー団の興奮したパフォーマンスが際立っており、人気バンドパプンバンド（PAPUN BAND）、NCUレッドソックスチームなど人気バンドが順番に舞台に上がり、イベントを活気に満ちたクライマックスで飾った。聖火は最終的にNCUの金メダルを獲得した体操選手チウ・ミンハンに伝えられ、彼は今年大会の炎を共同で点火するために聖火奉仕ランナーたちを導いた。この日の行事は歴史と名誉の連続性を象徴する「3大聖火奉送」で終わった。 NCU卒業生Lin Hsueh-Fengは1988年から聖火を持ち、2018年大会を代表するJou Jing-Yang元NCU会長に渡し、2026年大会を代表するHsiau Shu-San県会長に伝えられました。その後、聖火はNCUの金メダルを獲得した体操選手チウ・ミンハン（Chiou Min-Han）に任せられ、彼は今年のオリンピックの聖火奉仕ランナーを率いた。華やかな照明効果で、イベントは眩しい道を明らかにしました。これは、スポーツの精神が時間の経過とともに進化し続け、今は新しい時代のための持続可能性というビジョンと絡み合っていることを象徴しています。

還元率は8.6％？ FTSE 100 の注目株の配当予想は次のとおりです。

マーケティング January 13, 2026 0

画像出典: ゲッティイメージズ...

KalshiとPolymarketはインサイダー取引を禁止するために競争しています。予測市場の理論を立てた経済学者は、これが重要だと言います。幸運

仕事 April 26, 2026 0

予測市場の壁が閉鎖し始めた。木曜日、法務部は、ニコラス・マドゥロ逮捕作戦を計画するのに役立った米軍の兵士を5件の重罪で起訴すると発表しました。彼は機密情報を使ってポリマーケットに襲撃が起こると33,000ドルをかけ、そうしたときに約400,000ドルを現金化したと主張しました。前日、Kalshiは彼のレースに賭け、プラットフォーム上のインサイダー取引に参加した3人の連邦候補者に罰金を課し、資格を停止しました。圧力が加重されると、KalshiとPolymarketは、政治家が自分のキャンペーンを介して取引することを禁止し、運動選手が自分のリーグで取引することを禁止し、従業員が雇用主に関連する契約に従って取引することを禁止する新しい制限を発表しました。しかし、ほぼ40年間にわたって予測市場に対する知的主張を繰り広げてきたロビン・ハンソン（Robin Hanson）は、これはすべて間違っていると述べています。多くの予測市場で使用されている市場スコアルールの開発を支援したジョージ・メイソン大学のハンソン教授は、インサイダーについて「あなたは彼らが取引したい」と述べました。「あなたは最も正確な価格を望んでいます。それは非常に明白です。市場の目的は決定を知らせることです」多くの消費者、特に若者と男性にとって、予測市場は魅力的な差益取引の機会です。多くの政策立案者にとって、これは文字通り「ギャンブル」のような苦痛な災害です。ドナルド・トランプ大統領でさえ、息子がプラットフォームとビジネス関係を結んでいるにもかかわらず、自分は彼らを「あまり好きではない」と述べた。しかし、市場を愛する経済学者にとって、予測市場は人々にできるだけ早く真実を伝えるために費用を支払う方法です。一部のイベントでは、これはわずかです。基本的に、誰もが市場のおかげで、レディー・ガガが今年サプライズスーパーボールゲストになる前に知っていました。しかし、より重要な情報も公開されました。ビデン政権の最後の時間に、匿名のPolymarketトレーダーは、退任する大統領が退任する前に発表する4つの特定の斜面に正確に賭けて約300,000ドルを獲得しました。だからといって、ハンソンがすべての政治家と兵士に無賃乗車券を与えるという意味ではありません。彼は「社会には相反関係」があることを知っています。ハンソンは、「秘密を維持したい組織があり、そのような秘密を知りたいというより大きな世界があります」と述べました。「そして、私たちはスペクトルからどちらの極端にも行かなければならないとは思わない」政府職員の予測市場取引を禁止する法案の共同発議者であるElissa Slotkin（D-Mich.）上院議員は、任務が始まる前に行われる任務に対して兵士が400,000ドルを賭けること（Van...

アナリストは今年、新しいBitcoinの上場がいつ始まるかについてのタイムラインを共有します。

暗号 March 6, 2026 0

最近、ビットコインが70,000ドルを突破し、これが新しい衝動的な上昇の始まりであるのか、それとも長い床プロセスの別の停止なのかという疑問が提起されています。 Xに掲載された暗号通貨アナリストCrypFlowは、ビットコインが主要なサイクルフロアを形成する初期段階にある可能性がある理由と、2026年10月が次の本格的な上昇の始点になることができる理由の技術的事例を提示しました。分析は、長年のトレンドライン、周期的な動作、および確率論的RSI指標に基づいています。ビットコインは2018年以降維持されたトレンドラインを尊重します。毎月の期間によるビットコイン価格の動きの技術的分析によると、主要な暗号通貨の価格の動きは、ビットコインの最大のサイクル最低値を静かに形成してきた長年のトレンドラインを依然として尊重しています。この上昇トレンドラインは、2018年のサイクルフロアと2022年のフロアを接続し、2026年に再びサポートラインとして機能するようです。ビットコインの現在位置は現在、その構造のすぐ上にあります。関連読書CrypFlowはまた、以前に2021年のサイクルの上部付近で抵抗として機能していた主要な水平領域も指摘しました。 69,000ドル程度の古い上限は現在、価格対策のサポートとしてテストされています。この役割の転換は、ビットコインの価格行動にとって非常に重要です。これは、暗号通貨が古い抵抗線と上昇傾向線の交差点に基づいて構築しようとする可能性があることを示しているためです。ソース：xのCrypFlowチャートビットコインが50,000ドルの地域に落ちず、現在69,000ドル付近の領域以上を維持する場合、2022年の床の構造を反映することになります。この低点は、上昇傾向線が2017年の最高点で前のサイクルの抵抗に遭遇した同様の合流点で形成されました。新しいブルランのタイムライン価格レベルはすべての注目を集めています。ほとんど時間がかからず、CrypFlowによると、これはほとんどの人がこのサイクルを誤って理解している部分です。アナリストはストークスティックRSIを指摘し、各主要な弱気サイクルの間にこの指標がゼロ線の下でどれだけ長く続いたかを追跡し、歴史的パターンはその一貫性を際立たせています。関連読書2018/2019サイクルでは、ストックキャスティックRSIはビットコインが実際の反転を見せ、次の強勢が始まるまで零下で約365日を過ごしました。 2022/2023年の弱世場周期でも同様でした。ビットコインは継続的な回復が始まる前に約1年を零下に送りました。しかし、このサイクルでは、ビットコインのストックキャスティックRSIは約120日間のみゼロ以下に保たれました。このすべてを総合すると、ビットコインが今年末、おそらく次の主要上昇場が始まる前の2026年10月頃に二重底を形成するシナリオが開きます。これは必ずしもビットコインがさらに墜落するという意味ではありません。 CrypFlowによると、これが提案するのは、価格対策が真のサイクルフロアが構築される遅い研削作業を完了できなかったことです。 1DチャートのBTC取引は$ 70,433 |ソース: Tradingview.com BTCUSDT pngtreeのメイン画像、Tradingview.comのチャート

Tag: AIエージェントの見出しを飾る機能は深刻な信頼性の問題を隠す可能性があります幸運

Company

Latest

Popular