Metaは、昨年設立された新しいAI研究部門であるMeta Superintelligence Labsによって製造された最初のAIモデルであるMuse Sparkを公開し、従業員と機器に数十億ドルを投資しました。
Metaによって公開されたベンチマークテストによると、このモデルはOpenAI、Anthropic、およびGoogleの主要なAIモデルといくつかのタスクで競争的ですが、全体的にはそれを超えません。それにもかかわらず、独立した専門家がテストしたときにベンチマークの結果が維持されれば、Muse Sparkは2025年4月にリリースされた最後のAIモデルであるLlama 4が無駄に広く非難された後、Metaを再びAI競争に投入するようです。
しかし過去には、MetaがAIモデルの公開されたベンチマーク結果を操作し、ほとんどのユーザーが実際に使用できるバージョンよりも優れているように操作したことがありました。これはMetaのLlama 4ベンチマークの場合です。同社は、後で特定のタスクに合わせて微調整されたプロフェッショナルでリリースされていないバージョンのモデルを使用して、その領域のベンチマークスコアを向上させることを認めましたが、すべてのユーザーが利用できる一般的なバージョンはパフォーマンスが悪かったです。
そして別の問題があります。会社独自の製品エコシステムの外で新しいMetaモデルを使用できる人はほとんどいません。誰もが無料でモデルをダウンロードして自分の機器で実行できるだけでなく、好きなように修正して微調整することができるという意味である「オープンウェイト」モデルとしてリリースされたMetaの以前のAIモデルとは異なり、Muse Sparkは少なくとも現在では基本的にMeta用の内部ツールです。
このモデルは現在、当社のスタンドアロンMeta AIアプリとMeta.aiでMeta AIヘルパーをサポートしています。同社は今後数週間でWhatsApp、Instagram、Facebook、メッセンジャー、MetaのRay-Ban AIメガネにこれをリリースすると発表した。また、アプリケーションプログラミングインターフェース(API)を使用してパートナーを選択できる「プライベートプレビュー」でモデルを提供すると発表しました。これは、Muse SparkをMetaの競合他社が提供する有料独占モデルよりもはるかに排他的にします。 (Metaは、ブログ記事で、そのモデルの将来のバージョンをオープンソースとして提供することを望んでいると述べた。)
Muse SparkはMetaの最初の推論モデルです。つまり、初期のアプローチが機能しない場合は、さまざまな戦略を使用して段階的にプロセスを進めることができます。同社の以前のモデルはすべて、モデルのトレーニングに基づいて即時の回答を生成するように設計されています。 Muse Sparkは、テキストと画像の両方を受け取り、出力できるマルチモーダルモデルでもあります。 Metaが発表した技術ブログ記事によると、このモデルは他のソフトウェアツールの使用もサポートし、複数のサブエージェントの作業を調整するのに役立ちます。
Metaは、新しいモデルを発表するブログ記事で、Muse Sparkを「小さく、迅速に設計されていますが、科学、数学、健康に関する複雑な質問を推論するのに十分な能力がある」と説明しています。このモデルは、同社が同じファミリからより大きく、より強力なモデルに拡張する前に、Metaが使用するアーキテクチャとトレーニングシステムを検証するためにMuse Sparkを使用する一連の新しいモデルの最初のモデルであると説明します。
また、モデルには、サブエージェントを起動してタスクのさまざまな部分を並列に推論できる「考察」または「事故」モードがあります。 Metaは、新しいモデルについて公開した技術ブログで、このモードを使用してMuse Sparkは「Gemini Deep ThinkやGPT Proなどのフロンティアモデルの極端な推論モードと競合することができる」と述べた。
リリースとともに発表されたベンチマーク結果は、競争力はあるが支配的ではないモデルの姿を示しています。たとえば、博士レベルの推論能力をテストすることになっているGPQA Diamondベンチマークでは、Muse Sparkは89.5%を記録しました。これは、Gemini 3.1 Proの94.3%、AnthropicのClaude Opus 4.6、およびOpenAIのGPT-5.4がそれぞれ得点した92.7%と92.8%にわずかに遅れています。主要な健康ベンチマークであるHealthBench Hardでは、Muse Sparkは42.8%のスコアですべての競争モデルに勝ちました。これはOpus 4.6またはGemini 3.1 Proよりはるかに優れており、GPT-5.4よりも少し優れています。
メタはパフォーマンスギャップを認めた。技術ブログ記事には、同社は「現在のパフォーマンスのギャップがある領域、特に長距離エージェントシステムとコーディングワークフローに投資し続けている」と述べています。
Muse Sparkのリリースは、Llama 4の失敗後にMetaが行った大規模な改編の中で最も目に見える製品です。 2025年6月、Metaは143億ドルを費やし、Scale AIの議決権のない持分の49%を買収し、共同創業者でありCEOであるAlexandr WangをMetaの最初のAI最高責任者として獲得しました。
Wangは新しく設立されたMeta Superintelligence Labs部門を率いる任務を務めました。 WangとZuckerbergは、競合AI研究所のAI研究者に資本を含めると、数億ドルの給与パッケージを提供しながら人材確保に乗り出しました。また、同社は新しいAIドライブをサポートするためにAIコンピューティングインフラストラクチャを構築するために数千億ドルを投資しました。
その後、Muse Sparkが開発されている間も、追加の改編がありました。 2026年3月、Metaは以前、MetaのReality Labs仮想および拡張現実部門で働いていた副社長Maher Sabaが率いる新しいアプリケーションAIエンジニアリング組織を作成しました。 Sabaは、Metaの最高技術責任者であるAndrew Bosworthに直接報告します。 Sabaの部門は、WangのSuperintelligence Labsと協力して、内部メモに「私たちのモデルがより良く、より速くなるのを助けるデータエンジン」と説明されているものを構築します。これらの動きは、Zuckerbergがリスクを回避し、Wangが長期的な超知能研究を追求している間も、製品指向のAI開発が継続することを保証するものとして広く解釈されています。
テクノロジーブログの記事で、Metaは過去9ヶ月間、チームがモデルアーキテクチャ、最適化、データキュレーションの改善など、AIスタックを最初から再構築したと述べました。同社は、この進歩により、Metaの以前のモデルであるLlama 4 Maverickよりも「10倍以上のコンピューティング」で同じ機能を達成できると主張しています。 Metaはまた、強化学習パイプラインが「滑らかで予測可能な利得」を提供し、Muse Sparkは、会社がより大きなモデルを教育する前に、各世代が最後を検証する意図的な「拡張はしご」の最初のステップであると述べています。
安全に関して、MetaはMuse Sparkが会社の更新された安全フレームワークに従って配布前に広範な評価を受けていると述べています。このモデルは、潜在的な生物兵器エンジニアリングに関連する安全性の印象的な結果を報告します。あるベンチマークでは、ベンチマーク設計者が生物兵器開発に潜在的に役立つと判断した要求の98%を拒否しました。
しかし、ブログ記事はまた、第三者の評価者Apollo Researchが、Muse SparkがApolloが観察したすべてのモデルの中で最も高い「評価認識」率を示し、テストシナリオを「ソートトラップ」として頻繁に識別することを発見したと述べた。 Meta 氏は、自らのフォローアップ調査を通じて、これらの認識がアライメント評価の小さなサブセットでモデルの挙動に影響を及ぼす可能性があるという初期の証拠を見つけたが、「リリースを妨げる心配ではない」と結論付けた。
2001年、Fortuneは初めてCEOと創設者、建築業者と投資家、思想家と実践家を一堂に集める「私たちが知っている最もスマートな人々」を招集しました。それ以来、Fortune Brainstorm Techは大胆なアイデアが衝突する場所でした。 6月8日から10日まで、私たちはBrainstorm 25周年を記念してすべてが始まったAspenに戻ります。今すぐ登録してください。


