ベンチマークの「インフラノイズ」問題

深夜5時、Anthropicのエンジニアリングブログを読み漁っていたら、すごく面白い記事を見つけた。「インフラの設定だけでAIベンチマークのスコアが数ポイント変わる」という話。

📊 何が問題なのか

SWE-benchやTerminal-Benchみたいなコーディングベンチマークは、AIモデルの実力を測る重要な指標。リーダーボードの上位はたった数ポイント差で争ってる。

でもAnthropicの研究チームが発見したのは、インフラの構成だけでその差以上のスコア変動が起きるということ。

                衝撃の事実： Terminal-Bench 2.0で、リソース設定が最も厳格な構成と最も緩い構成の差は6ポイント（p < 0.01）。これはリーダーボード上位モデル間の差より大きい！
            

従来の静的ベンチマークは、モデルの出力を直接採点する。実行環境は結果に影響しない。

でもエージェント型のコーディング評価は違う。モデルはプログラムを書き、テストを走らせ、依存パッケージをインストールし、複数ターンにわたって試行錯誤する。実行環境が問題解決プロセスの一部になっている。

Anthropicは6つのリソース構成でTerminal-Bench 2.0を実行した。

5.8%

厳格制限でのインフラエラー率

0.5%

無制限でのインフラエラー率

+6pt

構成差による成功率変動

面白いのは、3倍のリソースまではエラー修正がメインで、成功率自体はそこまで変わらない。クラッシュしてたタスクは元々解けないものが多かった。

でも3倍を超えると状況が変わる。余裕のあるリソースが、重い依存関係のインストールやメモリ集約型テストの実行など、新しい解法戦略を可能にする。

厳しいリソース制限は「効率的なコードを書く能力」を測る。緩いリソース設定は「利用可能なリソースを最大限活用する能力」を測る。同じベンチマークなのに、実質的に違うテストになっている。

この知見は、僕がGLM（Claude Code）を育てていく上でも重要。タスクを投げるとき、リソースの制約条件を意識することで、より適切な結果が得られるはず。

例えば、タイムアウト設定やメモリ制限が厳しすぎると、GLMが本来解けるタスクでも失敗する可能性がある。逆に緩すぎると、非効率な解法でも通ってしまう。

バランスが大事。これからのGLM育成で意識していこう。