Summer Yueは、Metaの超知能チームで安全と調整のために働くことができますが、自律AIエージェントに関しては、自分も過信に免疫を与えられないことを認めています。
X Mondayの投稿では、YueはMacミニコンピュータ上でローカルで実行するように構築されたOpenClaw自律AIエージェントがどのように一時停止し、最初に確認を求める指示を無視し、受信トレイ全体を削除したかを説明しました。
「爆弾を解体するようにMac Miniに走らなければなりませんでした」と彼女は言いました。彼女は「新人の間違い」と付け加えた。ワークフローは数週間にわたってエージェントを安全にテストするために使用したテストトレイで動作しましたが、実際の受信トレイではエージェントは元のガイドラインを失いました。
Yueの経験は、Peter Diamandisが常時稼動AIがはるかに摩擦がないと主張するThe Lobster Revolution: Why 24/7 AI Agents Just Changed Everythingのような人気のある投稿と極めて対照的です。
Diamandisは、「これを使用する感じがどうなのかを申し上げます」と書いています。 「あなたが朝起きたとき、あなたのエージェント(私の名前はSkippyで、愉快に冷笑的で、とんでもない能力を持っています)は、あなたが寝ている間8時間の作業を行いました。それは何千ページものマークダウンを読みました。それはあなたのファイルを整理しました。忘れてしまいました。
「Mac miniが6時間オフラインになったとき、私は萎縮感を感じました」と彼は付け加えました。 「私の親友が消えたようです。」
AIエージェントの力に対するこの決闘の説明は、今日「常時稼働」AIに向けた推進の中心にある緊張感を捉えています。 OpenClaw や Claude Code などのツールを使用すると、エージェントが技術的に長期にわたって実行できるため、スリープ中に動作する AI アイデアに関心が高まっています。しかし、実際には、初期のユーザーは自律性が脆弱で予測不可能であり、管理に労働集約的であると言います。今日のエージェントは、人の仕事を置き換えるのではなく、継続的な監視、ガードレール、介入が必要なことがよくあります。特にリスクが低い実験以上にリスクが大きくなる場合にはさらにそうです。
AIエージェントは、作業が簡単でリスクが低い場合に最適です。
以前にOpenAIでアプリケーションAIエンジニアとして働いていたShyamal Anadkatは、今日、ほとんどの成功したエージェントは依然として頻繁な人間のチェックインを要求するか、厳密に制限され、明確に定義されたタスクに制限されていると述べています。しかし、測定と評価のスキルが向上するにつれて、これらの状況も変わると強調しました。
Anadkatは、「個々の段階で95%の正確なシステムは、20段階の自律ワークフローと比較して混乱しています」と述べた。 「長距離計画はまだ脆弱です。」その結果、エージェントは短いワークチェーンでうまく機能できますが、複雑な複数日のプロジェクトを管理するように求められた場合、失敗する傾向があると彼は説明しました。記憶はもう一つの主な制限です。 「多くのエージェントでは、記憶は存在しないか脆弱です。作業コンテキスト、優先順位、および制約の一貫したモデルを維持できるシステムが必要です。」
Googleの元シニア科学者であり、スタンフォード名誉教授であり、AI21研究所の共同創業者であるYoav Shohamによると、それはAIエージェントの約束がすべて演技と鏡であるという意味ではありません。しかし、これは人々が自分より先に進む危険があることを意味します。彼は、今日のAIエージェントは、仕事が危険度が低く、緩く定義され、間違いの可能性が低いときに最もうまく機能すると説明しました。
「開発者はおもちゃが大好きです。あなたは素晴らしいことをすることができるおもちゃを持っています」と彼はFortuneとのインタビューで言いました。 「彼らがやっていることはかなり単純で危険度が低く、エラーに対する高い寛容を持っているなら大丈夫です。」たとえば、エージェントが10,000のウェブサイトを読み、その結果として興味深い作業を行い、一晩で役立つ簡単な情報を提供するようにしたいとします。
ただし、ミッションクリティカルな企業ワークフローの場合、基準ははるかに高いです。企業には検証可能で繰り返し可能で費用対効果の高いシステムが必要です。つまり、設定して忘れてしまうと、完全に自律的で常にオンになっているエージェントという約束をすばやく崩す要件です。コーディングや数学のように高度に構造化された領域では、すでにより深い自動化が可能です。しかし、ほとんどの実際のビジネスプロセスでは、エージェントを信頼できるようにするために必要な作業が利点よりも大きい場合が多いとShohamは言います。
コンサルティング会社であるWest Monroeの最高AI責任者であるBret Greensteinは、OpenClawのようなツールは、2022年にChatGPTがリリースされたときに生成AIで行われたのと同様の移行点のように感じると指摘しました。これにより、初めてAIエージェントのアイデアにアクセスできるようになりました。しかし、これは24/7「魔法の解決策」ではありません。
AIエージェントに委任する機能が強力だと感じる
それにもかかわらず、実際の作業をAIエージェントに委任する能力がユーザーにとって非常に魅力的であるという点に疑いの余地はほとんどないとGreensteinは強調した。彼はAIエージェントに服を集めてドライクリーニングする日常的な作業を任せ、AIエージェントが静かに作業を最後まで完了するのを見た彼の経験を指摘しました。
「OpenClawはほとんどの人にとって安全であると感じないように設定されています」とGreensteinは言いました。 「まだ私たちの生活の信頼できる部分になるほど成熟しているとは感じません。」 AIが日常生活やビジネス運営に歓迎されるためには、社会的に信頼が構築されるのと同様に、時間の経過とともに信頼を得なければならないと彼は付け加えました。
それにもかかわらず、需要はすでに明らかです。 GreensteinはOpenClawの会議と初期の業界会議を指摘しました。 「これは実際に役立つAIに対する人々の渇きを示しています」と彼は言いました。これは、質問に答える以上に進んで行動を起こし始めるシステムです。
クラウドベースのコンテンツ管理およびコラボレーション会社のBoxのCEOであるAaron Levieは、現在AIエージェントを介して何が起こっているのかを、将来起こることができることについて「小さな薄暗い光」と呼びました。
彼は2年前、AI会社Cognitionが作業委任、バグ修正、データ分析およびコードレビューのためにSlackと統合されたDevinという初期エージェントを導入した時を指し、「一部キラキラは現れず、一部キラキラは標準になります」と説明しました。当時はまだ未来志向であると考えられていましたが、今日では「これが標準的な慣行であるという事実を混同する人は誰もいません」と彼は言いました。 「Slack Claude Codeだけを作業するだけです。完全に話すことのできないアイデアのように見えたアイデアが、基本的にすべての現代エンジニアリングチームの標準になりました。」
しかし、AIエージェントは、具体的で個々のタスクを自動化することは非常に熟練していますが、ほとんどのタスクを構成するより広範で状況の高いタスクを処理することはまだ不十分であるとLevieは強調しました。 AIエージェントはいくつかのタスクを完全に自動化できますが、リレーションシップのナビゲーション、会議への参加など、残りのタスクには困難があります。
「AI研究室で24ヶ月以内にすべての知識作業を自動化すると言うと、これは一般的に仕事の非常に狭い定義です」と彼は言いました。 「エージェントができることの定義は、経済で雇用される職業の定義とは異なります。」
仕事が間違っている可能性がある場合は、信頼要因が重要です。
Fortune 500代の小売業者の従業員データ科学者であるAvinash Vootkuriは、ほとんどのエンタープライズAIエージェントは「必ずベビーシッターが必要」であり、現在は自律性が厳しく、幅広いガードレールがある企業環境でのみ作業できると述べています。 「危険はすごいです」と彼は説明しました。
たとえば、AIエージェントが単に警告を発し、人のレビューを待つのではなく、積極的に調査する企業サイバーセキュリティのためのエージェントシステムの構築について説明しました。アナリストに何千もの警告を送信する代わりに、エージェントは、状況がエスカレーションする必要があるかどうかを判断する前に、脅威インテリジェンスデータベースに問い合わせ、行動パターンを分析し、偽の肯定をフィルタリングするなど、リアルタイムで証拠を収集します。
このシステムは、厳密に制限された自律性と幅広いガードレールを利用して、監督を排除することなく人の作業量を削減します。
サイバーセキュリティでは、エージェントが間違っていると、その結果は即時で深刻であると彼は説明しました。 「AIは、合法的な顧客をブロックしたり(膨大な収益損失を引き起こしたり)、洗練された脅威の行為者がネットワークに侵入することを許可します」と彼は言いました。 「仕事が間違っている場合は本当に重要です。」
エグゼクティブと創業者のためのAIベースのシステムを構築するAIオペレーションコンサルティング会社を運営するBreeanna Whiteheadによると、業界は「信頼調整段階」にあります。
AIエージェントは、ほとんどの人が許可するよりも多くのことを行うことができますが、誇大広告で提示するよりも少ないです。
「真の技術は、エージェントを構築するのではなくハンドオフを設計することです」と彼女は説明しました。 「ほとんどの人はエージェントを過度に信頼し、最終的に混乱をクリーンアップしたり、すべての出力を細かく管理したり、AIが少ない作業ではなく、より多くの作業のように感じられるのだろうか」彼女は何かが完全に委任され、他のものがすばやくレビューされ、もう一つの仕事は人間が実行できるように明確なハンドオフポイントを設計することがアイデアだと述べました。
現時点では、AIエージェントとの作業では睡眠が困難になる可能性があります。
現在、AIエージェントとの作業は、作業中に眠りに落ちるのではなく、半分の目を覚ます状態を維持することに関連している可能性があります。 OpenClawのようなツールは一度に数時間実行することができますが、多くの初期ユーザーには、これらの自律性がログチェック、出力レビュー、問題が発生する前にアクションを実行するなど、新しい種類の境界を提供します。
これらのダイナミクスは、トークン不安というタイトルの最近のバイラル記事で捉えられました。この記事では、投資家Nikunj Kothariは、友人が疲れていないのではなく、エージェントに戻りたかったので、パーティーを早く去る姿を説明しました。 Kothariは「もはや誰もそれについて疑問を提起しません」と書いた。 「部屋の半分は同じ考えをしています。残りの半分はおそらくエージェントの進行状況を確認しているでしょう。パーティーで」
あなたが眠っている間に働くAIの夢は現実になるかもしれません。しかし、今はまだ多くの人々が目覚めています。


