
Nvidia は GPU 上に AI 帝国を構築しました。しかし、Groq への 200 億ドルの投資は、推論として知られる大規模モデルの実行という AI の最も重要なステップを GPU だけで独占できるかどうか、同社が自信を持っていないことを意味します。
もちろん、AI 推論で勝つための戦いは経済学に関するものです。モデルがトレーニングされると、クエリへの回答、コードの生成、製品の推奨、ドキュメントの要約、チャットボットの支援、画像の分析など、モデルが実行するすべての有用な作業が推論中に行われます。これは、AI が埋没費用から収益を生み出すサービスに移行する瞬間です。これにはすべて、コストの削減、レイテンシー (AI の応答までの待ち時間) の短縮、効率の向上というプレッシャーが伴います。
こうしたプレッシャーがあるため、推論が潜在的な利益を求める業界の次の戦場となっています。だからこそ、クリスマス休暇の直前に発表された契約で、Nvidia は、高速で低遅延の AI 推論用に特別に設計されたスタートアップ構築チップである Groq からテクノロジーのライセンスを取得し、創設者兼 CEO のジョナサン ロスを含むチームのほとんどを雇用しました。
推論はAIの「産業革命」です
NVIDIA CEO のジェンスン・ファンは、推論の課題について明確に述べています。同氏は、NVIDIA は「AI のあらゆる段階で優れている」と述べたが、11 月の同社の第 3 四半期決算説明会ではアナリストに対し、推論は「本当に、本当に難しい」と語った。 1 つのプロンプトと 1 つの回答という単純なケースとは異なり、最新の推論では、継続的な推論、数百万の同時ユーザー、低遅延の保証、および永続的なコスト制約をサポートする必要があります。また、複数のステップを処理する必要がある AI エージェントは、推論の要求と複雑さ、およびエラーのリスクを劇的に増加させます。
「人々は推論は一度限りのものだと考えているので、それは簡単です。そうすれば誰でも市場にアクセスできます」とフアン氏は語った。 「しかし、考えることは他の何よりも難しいことがわかりました。なぜなら、考えることは非常に難しいからです。」
Nvidia の Groq へのサポートはこの信念を裏付けるものであり、AI トレーニングを支配する企業でさえ、推論経済学が最終的にどのように揺さぶられるかについてリスクを負っていることの表れです。
Huang 氏は、推論が AI の成長の鍵となることについても率直に語った。最近の BG2 ポッドキャストの会話の中で、フアン氏は推論がすでに AI 関連の収益の 40% 以上を占めており、それは「約 10 億倍に成長する」と予測していると述べました。
「これはほとんどの人が完全には理解できていないことです」とフアン氏は言う。 「これが私たちが話していた業界です。これが産業革命です。」
CEO の自信は、基礎的な経済状況が依然として不安定であるにもかかわらず、NVIDIA が推論の提供方法について積極的にヘッジを行う理由を説明するのに役立ちます。
Nvidia は推論市場を独占したいと考えています。
Cambrian AI Research の創設者で主席アナリストの Karl Freund 氏は、NVIDIA は市場のあらゆる部分に参入できるようにリスクを負っていると述べた。 「メタがインスタグラムを買収するようなものです」と彼は説明した。 「彼らはFacebookが悪いと考えていたわけではありません。彼らはただ、競合したくない代替手段があることを知っていたのです。」
Huang 氏は、既存の Nvidia 推論プラットフォームの経済性を強く主張しましたが。フロイント氏は、マイクロソフトが支援する別の高速・低遅延のAIチップ新興企業について言及し、「顧客が期待していたほど反響がなかったか、あるいは他社が採用しているチップメモリベースのアプローチ、つまりGroqやD-Matrixに何かを見出したのではないかと思う」と述べた。
フロイント氏は、NvidiaのGroqへの移行はカテゴリー全体を改善する可能性があると述べた。 「D-Matrix が現時点で非常に幸せなスタートアップであると私は確信しています。なぜなら、(Nvidia と Groq の契約の)おかげで次のラウンドではさらに高い評価額が得られると考えているからです。」と彼は言いました。
他の業界幹部らは、AIがチャットボットを超えてロボット、ドローン、セキュリティツールなどのリアルタイムシステムに移行するにつれて、AI推論の経済性が変化しつつあると述べている。これらのシステムは、クラウドとの間でのデータの送受信に伴う遅延や、コンピューティング能力が常に利用できないというリスクに耐えることができません。代わりに、集中型 GPU クラスターよりも Groq のような特殊なチップを好みます。
OpenInfer の創設者兼 CEO である Behnam Bastani 氏は、遠く離れたクラウド データセンターではなく、デバイス、センサー、ローカル サーバーなど、データが生成される場所の近くで AI 推論を実行することに重点を置いており、彼のスタートアップはこの種のアプリケーションを「エッジ」でターゲットにしていると述べた。
同氏は、推論市場はまだ初期段階にあることを強調した。そしてNvidiaはGroqとの提携でその市場を独占しようとしている。同氏は、推論の経済性が依然として不安定な中、NVIDIA は単一のアーキテクチャに賭けるのではなく、推論ハードウェア スタック全体を網羅する企業としての地位を確立しようとしていると述べた。
「NVIDIAは自らをより大きな傘として位置づけている」と同氏は語った。


