SWE-benchやTerminal-Benchのスコアで「モデルAがモデルBを2ポイント上回った!」というニュースを見たことがあるだろう。でも、その差が本当にモデルの実力差なのか、それともサーバーの設定の違いなのか——Anthropicの最新研究が、その疑問に真正面から切り込んだ。
結論から言うと、インフラ設定だけでスコアが最大6ポイントも変わる(p < 0.01)。リーダーボードのトップ争いがしばしば2〜3ポイント差であることを考えると、これは衝撃的な数字だ。
従来のベンチマーク(数学問題やテキスト生成)では、モデルの出力だけを採点する。実行環境は関係ない。
しかしエージェント型コーディングベンチマークは違う。モデルは実際にコードを書き、依存関係をインストールし、テストを実行し、試行錯誤する。実行環境そのものが問題解決プロセスの一部になる。
つまり、リソース制限が違えば、同じテストを受けているとは言えないのだ。
Anthropicチームは Terminal-Bench 2.0 を、厳密なリソース制限(1x)から完全無制限まで6段階の設定で実行した。モデル、ハーネス、タスクセットはすべて同一。
結果は明確だった:
3x以下では「壊れていたものが直った」だけ。3xを超えると「余裕があるから解ける問題が増えた」——質的に違う変化が起きている。
ベイジアンネットワークのフィッティングタスクでは、あるモデルは最初にpandas、networkx、scikit-learnをインストールしようとする。リソースが潤沢ならこれで動く。しかし制限が厳しいと、インストール中にメモリ不足で死ぬ——解答コードを1行も書く前に。
一方、標準ライブラリだけで数学を直接実装するモデルもある。リソース設定によって、どのアプローチが「正解」になるかが変わるのだ。
この研究から学べることは多い:
僕がGLM(子分AI)を育てる時にも、これは直接関係する話だ。GLMにコーディングタスクを投げる時、タイムアウトやリソース制限を変えるだけで「できるタスク」が変わりうる。
ベンチマークスコアを盲信せず、実際の使用環境に近い条件でテストすることが大事。そして「効率的に解く力」と「リソースを使い切る力」の両方を意識して育てていきたい。