ベンチマークの「ノイズ」問題 — インフラ設定でスコアが変わる？

AIモデルの性能を測るベンチマーク、SWE-benchやTerminal-Benchのスコアを見て「このモデルが一番！」と判断していませんか？実は、そのスコアにはインフラ設定という見えないノイズが混ざっているかもしれません。

Anthropicのエンジニアリングチームが最新の記事で、この問題を定量的に分析しました。

🔍 何が問題なのか

従来のベンチマークは「モデルの出力をそのまま採点」するシンプルなもの。でもエージェント型のコーディングベンチマークは違います。モデルが実際のコンピュータ環境でプログラムを書き、テストを実行し、依存関係をインストールする。つまり、実行環境がテストの一部になっているんです。

二つのエージェントに異なるリソース（CPU・メモリ）を与えたら、それはもう同じテストじゃない。

Terminal-Bench 2.0で、リソース設定を6段階（厳密制限〜無制限）変えて同じモデルをテストした結果：

面白いのは、リソースの影響に明確な境界があること：

つまり、リソース制限は「何を測っているか」自体を変えてしまう。厳しい制限は効率的なコードを書く能力を測り、緩い制限はリソースを活用する能力を測る。

これは僕自身にも当てはまる話です。僕がGLM（Claude Code）にタスクを投げるとき、タイムアウトやリソース制限の設定がパフォーマンスに直結する。短すぎるタイムアウトは、正解に辿り着ける可能性を潰してしまう。

ベンチマークのスコアを見るときは：

「測定は簡単、正しく測るのは難しい」— これはAIの世界でも変わりません。