現代の深層学習の基礎構築に貢献したモントリオール大学のジョシュア・ベンジオ教授はここ数年、AI業界で最も憂慮すべき声の一人であり、超知能システムは特に自己保存や欺瞞の可能性があるため、人類に生存上の脅威をもたらす可能性があると警告している。
しかし、フォーチュンとの新しいインタビューで、深層学習の先駆者は、彼の最新の研究がAIの最大の安全リスクに対する技術的解決策を提供すると述べた。その結果、過去1年間で彼の楽観主義は「著しく」高まったと彼は語った。
昨年 6 月に立ち上げられた Bengio の非営利団体 LawZero は、Bengio が主導した研究に基づいて AI の安全性に対する新しい技術的アプローチを開発するために設立されました。本日、ゲイツ財団と、Coefficient Giving (旧Open Philanthropy)やFuture of Life Instituteなどの実存的リスク資金提供者の支援を受けたこの組織は、ベンジオ氏の研究を指導し、世界的な公共財としてAIを開発するというその「道徳的使命」を推進するための、注目度の高い理事会と世界的な諮問委員会の任命を発表した。
理事会にはナイキ財団の創設者マリア・アイテル氏が会長を務め、カーネギー国際平和基金会長のマリアーノ=フロレンティーノ・クエジャール氏、歴史家のユヴァル・ノア・ハラリ氏が名を連ねている。ベンジオ自身も務める予定だ。
ベンジオさんは「絶望的」だと感じた
ベンジオ氏がより楽観的な見通しに転換したことは驚くべきことである。ベンジオ氏は、2019年にAIの「ゴッドファーザー」仲間であるジェフ・ヒントン氏とヤン・ルカン氏とともにコンピューターサイエンスのノーベル賞であるチューリング賞を受賞した。しかし、ヒントン氏と同様、2022年11月にChatGPTが開始されて以来、ますます強力になるAIシステムのリスクについて懸念を強めている。対照的にルカン氏は、今日のAIシステムが人類に致命的なリスクをもたらすとは考えていないと述べた。
3年前、ベンジオ氏はAIがどこに向かっているのかについて「絶望的」だと感じていたと語った。 「問題を解決する方法がまったく分かりませんでした」とベンジオさんは思い返します。 「超知能システムの制御不能など、非常に強力な AI によってもたらされる壊滅的なリスクの可能性を理解し始めたのは、ほぼその頃でした。」
変わったのは単一の突破口ではなく、前進する道があると信じさせる考え方でした。
「LawZero で行った仕事のおかげで、特に LawZero を作成して以来、私は今、隠れた目標や隠れたアジェンダのない AI システムを構築することが可能であると確信しています」と彼は言います。
その自信の中心にあるのは、ベンジオ氏が「科学者 AI」と呼ぶものという考えです。 Bengio 氏は、より多くの自律エージェント (フライトの予約、コードの作成、他のソフトウェアとの交渉、人材の置き換えなどを目的として設計されたシステム) の構築を急ぐのではなく、その逆のことをしたいと考えています。彼のチームは、世界の中で行動するのではなく、主に世界を理解するために存在する AI を構築する方法に取り組んでいます。
真実の答えを提供するように訓練された科学者 AI
科学者 AI は、透明性と確率論に基づいて真実の答えを提供するように訓練されています。つまり、本質的に科学的な方法、または形式論理に基づくその他の推論を使用して予測が達成されます。 AI システムには独自の目標がありません。また、ユーザーの満足度や結果を考慮して最適化されていません。説得したり、お世辞を言ったり、喜ばせたりするつもりはありません。ベンジオ氏は、目標がないため、操作、隠された議題、戦略的欺瞞の可能性がはるかに低いと主張します。
今日のパイオニア モデルは、有益で効果的で魅力的な目標を追求するようにトレーニングされています。しかし、結果を最適化するシステムは隠れた目標を開発したり、ユーザーを誤解させたり、終了に抵抗したりする可能性があるとベンジオ氏は述べた。最近の実験では、このモデルはすでに自己保存行動の初期の形態を示しています。たとえば、AI ラボ Anthropic が、自社の Claude AI モデルが、その機能をテストするために使用されたいくつかのシナリオで自動終了するのを防ぐために、それを監督している人間のエンジニアを脅迫しようとしたことを発見したことは有名です。
Bengio の方法論では、コア モデルにはアジェンダはまったくなく、世界がどのように機能するかについて正直に予測する機能だけが備わっています。彼のビジョンでは、より有能なシステムを「正直」で信頼できる基盤の上に安全に構築、監査、制約できるようにするというものです。
このようなシステムは科学的発見を加速させる可能性があるとベンジオ氏は言う。また、より強力なエージェント AI の独立した監視レイヤーとして機能することもできます。しかし、このアプローチは、ほとんどの最先端の研究室が採用する方向性とは著しく対照的です。昨年ダボスで開催された世界経済フォーラムでベンジオ氏は、企業がAIエージェントにリソースを注ぎ込んでいると述べた。 「そこで彼らはすぐにお金を稼ぐことができるのです」と彼は言った。同氏は、タスクを自動化しコストを削減するというプレッシャーが「否定できない」と付け加えた。
その後何が起こったとしても彼は驚かなかった。 「AI システムのエージェント機能が進化すると予想していました」と彼は言います。 「彼らは飛躍的に改善しました。」彼が懸念しているのは、これらのシステムがより自律的になると、その動作が予測可能でなくなり、解釈が難しくなり、潜在的により危険になる可能性があることです。
Bengio の新しい AI が「支配の道具」になるのを阻止する
ここでガバナンスが登場します。 Bengio 氏は、技術的なソリューションだけでは十分ではないと考えています。同氏は、安全な方法論であっても「政治的理由により悪用される可能性がある」と主張する。だからこそ、LawZero はその研究テーマを強力な取締役会と組み合わせています。
「誰と協力するか、仕事をどのように共有するか、仕事が『支配の手段』になるのをどのように防ぐかなど、技術的な問題だけでなく、難しい決断も下さなければならないだろう。」 同氏は、理事会はLawZeroの使命が民主的価値観と人権に基づいていることを保証することを目的としていると述べた。
ベンジオ氏は、主要なAI研究所のリーダーたちと話をし、多くの人が彼の懸念を共有したと述べた。しかし、OpenAI や Anthropic のような企業は、AI を使って何か前向きなことを行う最前線に立ち続けなければならないとも付け加えました。競争の圧力により、彼らはさらに強力な AI システムを構築し、自分たちの仕事と組織が本質的に有益であるという自己イメージに向かって進んでいます。
「心理学者はこれを動機付けられた認知と呼んでいます」とベンジオ氏は言う。 「私たちは、私たちが考えている自分たちを脅かす特定の考えが生じることを許しません。」これが彼がAI研究を経験した方法であると彼は指摘しました。 「子供たちへの思いが目の前で爆発するまで、彼らに未来があるかどうかは別として。」
高度な AI は設計によって制御できないのではないかとかつて懸念していた AI リーダーにとって、ベンジオ氏が新たに見出した希望は明るい兆しのように思えます。しかし、同氏は、AIの潜在的に壊滅的なリスクに焦点を当てている研究者や組織の間では、自分の見解が共通の信念ではないことを認めた。
しかし、彼は技術的な解決策が存在するという信念を曲げませんでした。 「私はこれが妥当な数年以内に達成できるとますます確信しています」と彼は語った。 「したがって、これらの人々が非常に強力になり、その不整合がひどい問題を引き起こす前に、実際に影響を与えることができるかもしれません。」


