
Google と Anthropic からの競争圧力が高まる中、OpenAI は新しい AI モデル GPT-5.2 を発表しました。このモデルは、幅広いタスクにわたって既存のすべてのモデルを大幅に上回るパフォーマンスを発揮すると言われています。
OpenAIが発表したデータによると、OpenAIが前バージョンのGPT-5.1を導入してから1カ月も経たないうちにリリースされた新モデルは、法律、会計、財務などのさまざまな「知識タスク」にわたる複雑な専門的タスクのベンチマークや、コーディングや数学的推論を含む評価で特に優れたパフォーマンスを発揮した。
InstaCartの元最高経営責任者(CEO)で現在はOpenAIのアプリケーションCEOを務めるフィジー・シモ氏は記者団に対し、このモデルは先月リリースされたGoogleのGemini 3 Pro AIモデルへの直接的な対応とみなされるべきではないと語った。このリリースを受けて、OpenAI CEOのサム・アルトマン氏は、より多くのスタッフとコンピューティングリソースをコア製品であるChatGPTの改善に集中させるためのいくつかの取り組みの立ち上げを延期する「コードレッド」を発行した。
「(Code Redが)このモデルの発売に貢献していると言えますが、それが特に今週リリースされる理由ではありません。しばらくの間開発が進められてきたのです」と彼女は語った。
同氏は、同社が「何か月もかけて」GPT-5.2を構築していると語った。 「このモデルはわずか 1 週間で完成したわけではありません。大変な作業でした」と彼女は言いました。 The Information の記事によると、このモデルは社内では「Garlic」というコード名で知られていました。このモデルの発売前日、アルトマン氏は大量のニンニクを使った料理を作るビデオクリップをソーシャルメディアに投稿し、発売が目前に迫っていることをからかった。
OpenAI幹部らは、このモデルは「数週間」にわたってパフォーマンステストを支援する「アルファ顧客」の手に渡ったと述べた。この期間は、アルトマンの「コード・レッド」宣言より前にモデルが完成していたことを意味する。
これらのテスターには、正規の AI スタートアップである Harvey、メモ作成アプリの Notion、ファイル管理ソフトウェア会社 Box、Shopify、Zoom が含まれていました。
OpenAIによると、これらの顧客は、他のソフトウェアツールを使用してタスクを完了し、コードの作成とデバッグに優れるというGPT-5.2の「最先端」の能力を実証しているという。
コーディングは、企業内で AI モデルを展開するための最も競争力のあるユースケースの 1 つとなっています。 OpenAI はこの分野で早い段階からリードしていましたが、Anthropic の Claude モデルは企業の間で特に人気があり、いくつかの数字によると OpenAI の市場シェアを上回っています。 OpenAI が顧客に GPT-5.2 コーディング モデルに戻るよう説得したいと考えているのは間違いありません。
Simo 氏は、OpenAI が ChatGPT の改善に注力できるようになったのは「Code Red」であると述べました。 「Code Red は、当社がリソースを特定の分野に集中させたいという会社への合図です。これは実際、優先順位を定義し、何が優先順位を下げられるかを定義する方法です」と彼女は言いました。 「そのため、ChatGPT 全般に重点を置いたリソースを増やしました。」
同社はまた、新モデルは「安全な完了」を提供するという点で、同社の以前のモデルよりも優れていると述べた。これは、メンタルヘルス危機の一因となる、あるいは悪化させる可能性のある言葉を一切出さずにユーザーに有益な回答を提供することと定義される。
「安全面では、ベンチマークを通じておわかりのように、自傷行為、さまざまな種類のメンタルヘルス、感情的依存など、安全性のほぼすべての側面が改善されています」とシモ氏は述べました。 「私たちはここで行っている仕事をとても誇りに思っています。これは私たちの最優先事項であり、安全プロトコルが遵守されていると確信できる場合にのみモデルをリリースし、私たちは自分たちの仕事を誇りに思っています。」
新モデルの発売は、ChatGPTによる心理的障害のあるユーザーとのやりとりがコネチカット州の殺人自殺の一因となったとして、同社に対して新たな訴訟が起こされたのと同じ日に行われた。同社は、ChatGPTが人々の自殺に寄与したとして他にもいくつかの訴訟に直面している。同社はコネチカット州殺人自殺事件を「信じられないほど悲痛な事件」と呼び、ChatGPTの「精神的または感情的苦痛の兆候を認識して対応し、会話のエスカレートを和らげ、人々を現実世界の支援に導くためのトレーニング」を継続的に改善すると述べた。
GPT-5.2 は、企業顧客にとって興味深いいくつかのベンチマーク テストで大幅なパフォーマンスの向上を実証しました。 OpenAI の GDPval ベンチマークで測定したところ、70.9% の確率で、広範囲の困難な専門タスクにわたって人間の専門家のパフォーマンスと同等かそれを上回りました。これに対し、OpenAI が 8 月にリリースしたモデルである GPT-5 ではわずか 38.8% です。 AnthropicのClaude Opus 4.5では59.6%。 Google Gemini 3 Pro は 53.3% です。
ソフトウェア開発ベンチマークである SWE-Bench Pro では、GPT-5.2 のスコアは 55.6% でした。これは、前世代の GPT-5.1 と比べて 5 パーセント近く、Gemini 3 Pro と比べて 12% 以上の改善です。
OpenAIの研究(トレーニング)担当バイスプレジデントであるエイダン・クラーク氏は、GPT-5.2のパフォーマンスをアップグレードするために具体的にどのようなトレーニング方法が使用されたかについての質問には答えることを拒否したが、OpenAIはAIモデル作成の最初のステップである事前トレーニングを含め、全面的に改善を行ったと述べた。
Googleが先月Gemini 3 Proモデルを発売したとき、研究者らは同社がトレーニング前とトレーニング後の改善も行ったと述べた。これには、AI 企業がモデル構築の事前トレーニング段階で大幅な改善を推進する能力をほぼ使い果たしたと信じていた一部の関係者が驚き、OpenAI がこの分野での Google の進歩に不意を突かれた可能性があるのではないかという憶測も流れた。


