Goldman Sachsには欠落しているアイテムの名前があります。共同代表のGeorge LeeとDr. Keyserlingが執行したGoldman Sachs Global Instituteの新しい報告書は、業界で「世界モデル」として知られていることに取り組んでいます。微妙な改善ではありません。機械が何ができるか、そしてどのように結果的にそれを行うことができるかについての質的な変化です。
AIローンがすでにこれに向かって走っているという事実は、Goldmanが何かに興味を持っている可能性があることを示唆しています。
誰も言いたくないギャップ
大規模な言語モデル革命は本当に驚くべき結果をもたらしました。十分な人間のテキストでシステムを訓練し、次にどの単語が出てくるかを予測するように最適化し、拡張し、ほとんど説明できないほどクリエイターを日常的に驚かせるレベルで推論、会話、書き込み、コーディングを開始します。商業結果は次のとおりです。1兆ドルの価値評価、産業再編、彼のキャリアを再考する事務職の労働者の世代。
しかし、その能力の背面には、業界が正面に立ち向かうことを惹きつけた構造的限界があります。 LeeとKeyserlingは、「LLMはパターンを完成させるのに強力ですが、パターンが説明する世界の内部感覚が欠けています」と書いた。 Goldmanの著者は、これらのシステムは、「二次解釈を通じてこれらの理解を生み出します。つまり、公開されたデータとテキストに基づいて私たちの世界がどのように機能するかを理解しています。
簡単に言えば、今日のAIは、人間が世界について書いた記事を読むことによって世界について学びました。現実そのものに触れずに現実の描写を吸収しました。ガラスを落とすと、割れることを流暢な散文で説明できます。重量、軌跡、結果の内部感覚はありません。
ドキュメントの要約、コミュニケーションドラフトの作成、コード生成など、今日のエンタープライズAIを支配するユースケースでは、これらの区別はほとんどありません。 AIが構造化されていない物理環境を探索し、複雑な組織の対応をリアルタイムで調整したり、戦略的な決定が実際の市場を介してどのように伝えられるかを推論するように求められた瞬間、これは堅い壁になります。
貸付け金が作っていること
Goldmanレポートが考える以上の意味を持つ部分がここにあります。世界モデルに焦点を当てる研究者は非主流運動ではありません。いくつかのケースでは、彼らはAI時代を生み出した初期の仕事の人々が現在見出しを支配しているまさにその人々です。
MetaのシニアAI科学者として長年過ごしたYann LeCunは、新しいベンチャーであるAMI Labsを立ち上げる前に、世界モデルを人工一般インテリジェンスに対する彼のビジョンの明示的な基盤としました。彼のJEPA(Joint-Embedding Predictive Architecture)は、テキスト予測ではなく人間のやり方である観察を通じて、世界の内部モデルを開発する機械を構築するように設計されています。 LeCunは、LLMを拡張するだけで一般インテリジェンスに到達できるという考えを公に継続的に批判してきました。世界モデルは彼の代替議論です。
ImageNetデータセットを通じて、今日支配的なAIシステムを生産するディープラーニング革命を引き起こすのに役立つスタンフォード研究員Fei-Fei Liは、関連するアイデアである空間知能を中心にWorld Labsを設立しました。前提は、真のインテリジェンスには、イメージ内のオブジェクトを認識するだけでなく、そのオブジェクトが空間にどのように存在し、相互に相互作用し、時間とともに変化するかを理解する必要があるということです。 Liの主張は、機械が単に分類するのではなく、3次元現実モデルに住むべきであるということです。
これらは、注目を集めるために反対の立場に固執する周囲の人物ではありません。彼らは現在、パラダイムの設計者であり、彼らの研究とビジネスにおいてパラダイムが不完全であると主張しています。
2つの国境、1つのアイデア
Goldmanレポートは、実際の世界モデルが実際にどのように見えるかを計画し、互いに異なるが関連している2つのパスを識別します。
物理世界モデルは、AIに重力、摩擦、熱力学、流体力学などの物質世界の支配ロジックを教えています。これらのシステムは実際の試行錯誤を介してのみ学習するのではなく、シミュレーションを通じて物理学の規則を吸収し、故障が安価で高速なデジタル環境で実行されます。ロボットは、床に触れる前にシミュレータの内部から数千回落ちることがあります。それがついに物理空間で行動するとき、それはすでに内面化された結果を持ってそうします。
その結果は、すでに物流、製造、自律システムで見ることができます。倉庫ロボットは衝突回数を減らし、混雑した空間を探索し、自律車両は道路に遭遇する前にエッジケースを練習します。 Goldmanが主張する重要な進歩は、より良いハードウェアではありません。現実の内部モデルが良いです。
仮想または社会的世界モデルは、人間のシステムで同様の野心を追求しています。これは、目標、記憶、インセンティブを備えたAIエージェントで満たされたデジタル環境です。それぞれは、実際の行動プロファイルに近づくように設計されています。そのエージェントが対話すると、パターンが表示されます。市場は行動します。組織が応答します。危機が連続して発生します。 「企業はすでに他の人がどのように反応するのか、競合他社がどのように動くのか、市場が信号をどのように解釈するのか、理事会が圧迫されたときにどのように反応するのかを推測するのに大きな努力を払っています」とLeeとKeyserlingは書いた。 「マルチエージェントシミュレーションは、人間のシステムの生きているモデルに近いものを提供します」
Goldmanの著者は、ビジネスリーダーがこれらのツールについてどのように考えるべきかについて非常に重要な違いを提示します。つまり、世界モデルは予測ではありません。 「これらのシステムは、狭い意味で未来を予測しません。もっともらしい未来を明らかにし、隠された力学を明らかにすることです」と彼らは書いた。 「予測は1つの正確な結果を想定しています。世界モデルは範囲、パス、およびフィードバックループを表します。」
ウォールストリートが求めていない投資の質問
ゴールドマンはゴールドマンなので、レポートは最終的に財政的議論に関するものです。
レポートによると、AIインフラ全体の構築は、AIの将来がより多くのコンピューティングで実行されるより大きな言語モデルであるという単一の仮定を中心にスケールされています。チップ、データセンター、エネルギー容量の現在の予測は、ほぼ完全にこれらの基盤の上に構築されています。 Goldmanの質問は、これらの予測が正しいものを測定しているかどうかです。
LeeとKeyserlingは、「世界モデルを取り巻く需要と機会は、AIインフラストラクチャの合意された需要供給予測にはまだ反映されていません」と書いています。世界モデルがLLMを置き換えるのではなく、LLMと共に構築された補完層として開発されている場合、コンピューティング要件は現在のウォールストリート予測が予想するレベルを大幅に超える可能性があります。シミュレーション環境には、テキストの束を超える特別な目的のデータパイプライン、合成データジェネレータ、物理ベースのエンジンが必要です。著者は「インフラストーリーは部分的に重なるものであり、シームレスな再利用ではない」と書いた。
競争的なフレーミングも同様に明確です。 「競争上の優位性は、誰が最大のモデルを教育するかに応じて、誰が現実、物理的、社会的、経済的シミュレーションを最も忠実に構築するかによって異なります。」
欠落しているリンク
Goldmanレポートは、世界モデルが何を表しているのか、そしてモデル構築競争がその分野で最も権威のある人々を引き付ける理由を最も明確に要約する公式で終わります。
LeeとKeyserlingは、「大規模な言語モデルがAI流暢性を提供するならば、世界モデルは状況認識を提供する」と書いた。 「最近の歴史のほとんどでは、人工知能を答えを生成するシステムとして扱いました。世界モデルはより野心的なものを提案します。」
過去10年間を再編したAIは、驚くほど精巧に世界について話す方法を学びました。現在、貸し手が作っているAIは、より難しく、より根本的なもの、つまりその中にあるのが実際にどんな感じなのか学びようとしています。
この記事のために、Fortuneジャーナリストは生成AIを研究ツールとして使用しました。編集者は出版前に情報の正確性を確認した。


