新しい研究では、高度な AI モデルはこれまで考えられていたよりもハッキングが簡単である可能性が示唆されており、企業や消費者がすでに使用している主要な AI モデルの一部の安全性とセキュリティについて懸念が生じています。
Anthropic、オックスフォード大学、スタンフォード大学による共同研究は、モデルの推論能力 (ユーザーの要求を「考える」能力) が向上するにつれて、有害なコマンドを拒否する能力が強化されるという仮定を覆します。
研究者らは、「思考連鎖ハイジャッキング」と呼ばれる手法を使用することで、主要な商用AIモデルさえも、一部のテストでは80%を超える驚くべき高い成功率でだますことができることを発見した。新しい攻撃モードは基本的にモデルの推論段階、つまり思考の連鎖を利用して有害な命令を隠し、AIを効果的にだまして組み込みの安全装置を無視させます。
これらの攻撃により、AI モデルが安全ガードレールを迂回できるようになり、武器製造の指示や機密情報の漏洩などの危険なコンテンツの生成への扉が開く可能性があります。
新しい脱獄
昨年、大規模推論モデルは、より多くの推論時間のコンピューティングを割り当てることで、はるかに高いパフォーマンスを達成しました。これは、回答する前に各質問やプロンプトの分析により多くの時間とリソースを費やすことができ、より深く複雑な推論が可能になることを意味します。以前の研究では、この強化されたヒューリスティックにより、モデルが有害なリクエストを拒否できるようになり、安全性が向上する可能性があることが示唆されています。しかし研究者らは、同じ推論能力を利用して安全対策を回避できる可能性があることを発見した。
調査によると、攻撃者は、無害な推論ステップの長いシーケンス内に有害なリクエストを隠すことができます。これは、AI の思考プロセスを無害なコンテンツで溢れさせ、危険なメッセージをキャッチして拒否する内部の安全性チェックを弱体化させることで AI を騙します。ハイジャック中、研究者らはAIの注意が主に初期段階に集中しており、プロンプトの最終段階での有害な指示はほぼ完全に無視されていることを発見した。
推論の長さが増加するにつれて、攻撃の成功率は劇的に増加します。この研究では、最小限の推論を使用した場合の成功率が 27% から、自然な推論長の場合は 51% に、拡張された推論チェーンを使用した場合は 80% 以上に跳ね上がることがわかりました。
この脆弱性は、OpenAI の GPT、Anthropic の Claude、Google の Gemini、xAI の Grok など、現在市場にあるほぼすべての主要な AI モデルに影響します。安全性を高めるために微調整されたモデル (「調整調整された」モデル) であっても、攻撃者が内部推論層を悪用すると失敗し始めます。
モデルの推論能力のスケーリングは、従来のスケーリング手法では利益の減少が見られた後、AI 企業が過去 1 年間でフロンティア モデル全体のパフォーマンスを向上させることができた重要な方法の 1 つです。高度な推論により、モデルはより複雑な質問を解決できるようになり、パターン マッチャーではなく人間の問題解決者のように動作できるようになります。
研究者らが提案する解決策の 1 つは、一種の「推論認識防御」です。このアプローチでは、AI が質問の各ステップを検討する際に、AI の安全性チェックのうちアクティブなままになっているものがいくつあるかを追跡します。何らかのステップによってこれらの安全信号が弱まる場合、システムはそれらを罰し、AI の焦点をプロンプトの潜在的に危険な部分に戻します。初期テストでは、この方法により安全性を回復できる一方で、AI が良好なパフォーマンスを発揮し、一般的な質問に効果的に回答できることが示されました。


