GPT-5.2がARC-AGIで示した「性能×コスト」の飛躍—AI評価の地図が塗り替えられる

2019年にFrançois Cholletが提案したベンチマークARC-AGIは、記憶力ではなく抽象的思考と汎化能力を試すことを目的としていました。最新のGPT-5.2はその難関テストで大幅な性能向上と同時に、費用効率でも革命的な改善を示しました。

ARC-AGIの目的と特徴

ARC-AGIは従来の合成ベンチマークと異なり、視覚的パズルを通して抽象化能力を検証します。人間には比較的解きやすい問題でも、機械にとっては長らく困難であり、単なる記憶では通用しない設計になっています。

過去の成果とコストの問題

昨年、o3-previewはARC-AGI 1の問題の87%を解決する成果を出し、ベンチマークの運営側も公式発表を行いましたが、その実行には極めて高額な費用がかかりました。o3-previewは100タスクを実行するのに合計456,000ドルを要し、1タスク当たり4,560ドルに達しました。

GPT-5.2の成果:性能と劇的なコスト削減

OpenAIが公開したGPT-5.2は、ARC-AGI 1において高い正答率を示すと同時に、1タスク当たりのコストを飛躍的に低下させました。公式紹介では、ある構成での1タスク当たりのコストが11.65ドルとなり、これは1年前と比べて約390倍の改善に相当します。

さらに低コスト設定のGPT-5.2(X-High)は、ARC-AGI 1で86.2%の正答率を達成し、1タスク当たりわずか0.96ドルという驚異的な数値も報告されています。

ARC-AGI 2と最新の挑戦

Cholletらは、AIの進化を見越して2025年3月にARC-AGI 2を公開し、より高次の抽象課題で機械を試す場を用意しました。従来は多くのモデルが最大で約38%の正答率に留まっており(Claude Opus 4.5の最高値)、依然として高い難易度が残っています。

その状況で、GPT-5.2はARC-AGI 2でほぼ55%を解決する成果を示しました(詳細はARC-AGIの公式ツイートで確認可能)。ただし、この場合の1タスク当たりコストは15.72ドルと報告されています。

「解けること」から「いくらで解けるか」へ:評価軸の変化

最近のデータは、単なる性能向上だけでなく、コスト効率の改善がAIの実用性で決定的な意味を持つことを示しています。ARC-AGIの事例では、性能は徐々に頭打ちに見えても、同じ問題を解くコストが劇的に下がることで応用可能性が一気に拡大します。

OpenAIの戦略的意味合い

OpenAIにとって、性能向上の「メダル」だけでなく、運用コストを引き下げることは経営面でも重要です。記事は、現状の利益率が伸び悩む中で、より安価で効率的に問題を解けることが将来の競争力と存続に直結すると指摘しています。GPT-5.2はGemini 3 Proへの回答でもあり、この方向性を明確に示すものとされています。

技術的・研究的含意

  • ARC-AGIが評価するのは汎化力と抽象思考であり、単純なスケーリングや記憶ベースの手法だけでは限界がある点が改めて示されました。
  • 一方でGPT-5.2の事例は、モデルと運用手法の改善により、同等あるいは近似の能力をはるかに低いコストで実現できることを示しています。

引用と参照

o3-preview のARC-AGIでの成果に関する発表はARC-AGIのブログに記載されています。GPT-5.2の紹介と性能・コストに関する情報はOpenAIの公開ページ(GPT-5.2紹介)およびARC-AGIのツイート(公式ツイート)から確認できます。

Anzai Hotaka

10 年の経験を持つコンピュータ エンジニア。Linux コンピュータ システム管理者、Web プログラマー、システム エンジニア。