Google DeepMind の著名な研究者であり、同社の最も有名なイノベーションのいくつかで重要な役割を果たした David Silver 氏が、自身のスタートアップを設立するために会社を辞めました。
彼の計画を直接知っている関係者によると、シルバー氏はロンドンに拠点を置くIneffable Intelligenceという新しいスタートアップを立ち上げたという。関係者によると、同社はAI研究者を積極的に採用し、ベンチャーキャピタルからの資金提供を求めているという。
DeepMind の多くのイノベーションを支える主要人物
シルバー氏は、DeepMind が 2010 年に設立されたときの最初の従業員の 1 人でした。彼は、DeepMind の共同創設者である Demis Hassabis とは大学時代からの知り合いです。シルバーは、AI プログラムが古代の戦略ゲームである囲碁で世界最高の人間のプレイヤーに勝つことができることを実証した 2016 年の AlphaGo の画期的なパフォーマンスを含め、同社の初期のイノベーションの多くで重要な役割を果たしました。
彼は、複雑なビデオ ゲーム StarCraft 2 で世界最高の人間のプレイヤーに勝つことができる AI プログラム AlphaStar、超人的なレベルでチェス、将棋、囲碁をプレイできる AlphaZero、およびゲームのルールを知らないなど、ゲームの知識が全くない状態から始めたにもかかわらず、人間よりも優れて多くの種類のゲームをマスターできる MuZero を開発したチームの主要メンバーでもありました。
最近、私たちは、国際数学オリンピックの質問にうまく答えることができる AI システムである AlphaProof を作成した DeepMind チームと協力しました。彼は、Google のオリジナルの Gemini ファミリーの AI モデルを紹介した 2023 年の研究論文の著者の 1 人でもあります。 Gemini には現在、Google の最高の商用 AI 製品とブランドが入居しています。
AI「スーパーインテリジェンス」への道を見つける
同氏の考えに詳しい関係者によると、シリバー氏は友人らに対し、「AIの最も困難な問題を解決する驚異と驚異」に立ち戻りたいと述べ、超知能(どの人間よりも賢く、潜在的に全人類よりも賢くなるAI)をこの分野の最大の未解決の課題だと考えていると語った。
他にも数名の著名な AI 研究者が近年、従来の AI 研究室を離れ、超知能の追求に専念する新興企業に移りました。 OpenAIの元主任研究員であるイリヤ・サツケヴァー氏は、2024年にセーフ・スーパーインテリジェンス(SSI)という会社を設立した。同社はこれまでにベンチャーキャピタルから30億ドルを調達しており、その価値は最大300億ドルと伝えられている。 AlphaGo、AlphaZero、MuZero で働いていたシルバー氏の同僚の何人かも最近退職し、超知能を追求しているという AI スタートアップの Reflection AI を設立しました。一方、Metaは昨年、Scale AIの元CEOで創設者のAlexandr Wang氏が率いる新しい「Superintelligence Labs」を中心にAI活動を再編した。
言語モデルを超えて
シルバー氏は、履歴データではなく経験に基づいて AI モデルをトレーニングする手法である強化学習の研究で最もよく知られています。強化学習では、モデルは通常ゲームまたはシミュレーターでタスクを実行し、そのタスクが目標の達成において生産的であるかどうかに関するフィードバックを受け取ります。 AI は、数多くのアクションの試行錯誤を通じて、目標を達成するための最適な方法を学習します。
この研究者は、強化学習の最も独断的な支持者の一人とみなされることが多く、いつか人間の知識を超える可能性のある人工知能を作成するにはそれが唯一の方法であると主張しています。
4月にリリースされたGoogle DeepMindが制作したポッドキャストの中で、同氏は、最近のAI熱狂のほとんどを担っているAIのタイプである大規模言語モデル(LLM)は強力だが、人間の知識によって制限されるとも述べた。 「私たちは人間が知っていることを超えたいと考えています。それにはさまざまな種類の方法が必要です。その種類の方法では、AIが実際に独自に物事を理解し、人間が知らない新しいことを発見する必要があります。」と彼は言いました。同氏は、強化学習に基づいたAIの新たな「経験の時代」を呼び掛けた。
現在、LLM には教師なし学習を使用する「事前トレーニング」開発フェーズがあります。彼らは膨大な量のテキストを消費し、特定の状況において統計的にどの単語が他のどの単語に続く可能性が最も高いかを予測する方法を学習します。次に、強化学習を使用した「トレーニング後」の開発フェーズを経ます。多くの場合、人間の評価者がモデルの出力を確認し、時には親指を立てるか親指を下げるという形で AI フィードバックを提供します。このフィードバックにより、モデルが有益な結果を生み出す傾向が改善されます。
しかし、この種の訓練は最終的には人間の知識に依存します。これは、トレーニング前の段階で人間が過去に何を学習し記録したかに依存しており、LLM ポストトレーニングが強化学習を実行する方法は最終的には人間の好みに基づいているためです。しかし、場合によっては、人間の直感が間違っていたり、近視眼的である可能性があります。
たとえば、2016年のAlphaGoの有名な囲碁世界チャンピオン、イ・セドルとの第2戦では、AlphaGoは37手を使用し、あまりにも型破りな手を打ったため、このゲームについてコメントした人間の専門家は皆、それが間違いだったと確信したほどだった。しかし、後にそれが AlphaGo の勝利に貢献したことが判明しました。同様に、人間のチェスプレイヤーは、AlphaZero のチェスのやり方を「エイリアン」とよく表現しましたが、その直感に反する動きが見事であることが判明することがよくありました。
もし人間の評価者が、LLM ポストトレーニングで使用される強化学習プロセスを通じてそのような動きについて判断を下した場合、人間の専門家を誤解するため、そのような動きを「拒否」する可能性があります。シルバーのような強化学習の純粋主義者が、AIが超知能に到達するには、人間の知識を超えるだけでなく、人間の知識を放棄し、第一原則に従ってゼロから目標を達成する方法を学ばなければならないと主張するのはこのためです。
シルバー氏の言いようのない知性は、「すべての知識の基礎を自ら発見する、無限に学習する超知性」の構築を目指すと、同氏の考えに詳しい関係者は語った。


