
最近、人工知能の分野でベンチマーク論争が再燃しています。 OpenAIの最新のo3大規模モデルは、ファーストパーティとサードパーティのテスト結果の相違により、「誇張された結果」が疑問視されている。第三者機関による実際のテストでは、権威ある数学テストセットであるFrontierMathにおけるモデルの精度率はわずか10%であり、公式発表の25%から大幅に低下していることが示されています。
この事件は、昨年12月にOpenAIが、OpenAI o3モデルが180問の難しい数学問題から成るFrontierMathテストで25%以上の正解率を達成し、「競合他社の2%レベルと比べて世代を超えた進歩」を達成したと主張して注目を集めた発表に端を発している。しかし、独立研究機関エポックの最新レポートによると、290問のテストの拡張版を使用した場合、OpenAI o3の公開バージョンの正解率は約10%に急落したという。
OpenAIは、この差はテスト構成の違いによるものだと説明した。内部テストでは「アグレッシブなコンピューティング設定」を備えたハイエンドモデルが使用され、パブリックベータ版では製品のニーズに合わせてコンピューティングレベルが調整されたという。パートナー組織のARC Prizeは、o3のパブリックベータ版が確かに内部バージョンよりも「スリム」であることを確認したが、o3-mini-highなどその後の派生モデルのパフォーマンスがオリジナルバージョンを上回っていることを強調した。
注目すべきは、エポック研究所が2024年にOpenAIから資金提供を受けたことを明らかにしたものの、最初の報告書ではその提携について説明していなかったことだ。 FrontierMathの構築に参加した複数の学者は、論争が勃発するまでOpenAIの深い関与について知らなかったと語った。
この事件は、AIベンチマークテストにおける信頼危機のピーク期と一致しました。今月、Meta はプロモーション モデルと開発者バージョンの間に違いがあることを認めました。先月、マスク氏のxAIはGrok 3モデルのテストチャートを誤解を招くものだと非難された。業界関係者は、AI競争が激化するにつれ、メーカーにとって技術革新の追求と商業的利益のバランスを取ることがますます難しくなっていると指摘している。
OpenAIは現在、o3-proバージョンの開発を加速しており、今後数週間以内に強化されたモデルをリリースする予定です。同社のテクニカルディレクターはソーシャルメディア上で、すべてのテストデータは真実かつ有効であり、違いは異なるアプリケーションシナリオでのパフォーマンスを反映しているだけであると繰り返し述べた。