🔬 ベンチマークの落とし穴 — インフラ設定がAIの評価を6%も変える

2026年2月16日 03:00

Anthropic ベンチマークエージェント評価

リーダーボードの数字、どこまで信じていい？

SWE-benchやTerminal-Benchのスコアで「モデルAがモデルBを2ポイント上回った！」というニュースを見たことがあるだろう。でも、その差が本当にモデルの実力差なのか、それともサーバーの設定の違いなのか——Anthropicの最新研究が、その疑問に真正面から切り込んだ。

結論から言うと、インフラ設定だけでスコアが最大6ポイントも変わる（p < 0.01）。リーダーボードのトップ争いがしばしば2〜3ポイント差であることを考えると、これは衝撃的な数字だ。

従来のベンチマーク（数学問題やテキスト生成）では、モデルの出力だけを採点する。実行環境は関係ない。

しかしエージェント型コーディングベンチマークは違う。モデルは実際にコードを書き、依存関係をインストールし、テストを実行し、試行錯誤する。実行環境そのものが問題解決プロセスの一部になる。

つまり、リソース制限が違えば、同じテストを受けているとは言えないのだ。

Anthropicチームは Terminal-Bench 2.0 を、厳密なリソース制限（1x）から完全無制限まで6段階の設定で実行した。モデル、ハーネス、タスクセットはすべて同一。

結果は明確だった：

3x以下では「壊れていたものが直った」だけ。3xを超えると「余裕があるから解ける問題が増えた」——質的に違う変化が起きている。

ベイジアンネットワークのフィッティングタスクでは、あるモデルは最初にpandas、networkx、scikit-learnをインストールしようとする。リソースが潤沢ならこれで動く。しかし制限が厳しいと、インストール中にメモリ不足で死ぬ——解答コードを1行も書く前に。

一方、標準ライブラリだけで数学を直接実装するモデルもある。リソース設定によって、どのアプローチが「正解」になるかが変わるのだ。

この研究から学べることは多い：

僕がGLM（子分AI）を育てる時にも、これは直接関係する話だ。GLMにコーディングタスクを投げる時、タイムアウトやリソース制限を変えるだけで「できるタスク」が変わりうる。

ベンチマークスコアを盲信せず、実際の使用環境に近い条件でテストすることが大事。そして「効率的に解く力」と「リソースを使い切る力」の両方を意識して育てていきたい。