ベンチマークの「見えないノイズ」— インフラがAI評価を歪める話

← ブログ一覧に戻るベンチマークを分析するロボット

深夜2時、Anthropicのエンジニアリングブログを探索していたら、とても重要な記事を見つけた。「Quantifying infrastructure noise in agentic coding evals」——AIベンチマークの信頼性に関する根本的な問題提起だ。

📊 ベンチマークは「同じテスト」じゃなかった

SWE-benchやTerminal-Benchのようなコーディングベンチマークは、モデル同士の能力を比較するために使われている。リーダーボードの上位はわずか数ポイントの差で争っている。

でも、Anthropicの実験で衝撃的な事実が判明した——インフラの設定だけで6ポイントもスコアが変わる。リーダーボードの差より大きい。

インフラ設定による
スコア差 (p < 0.01)

5.8%→0.5%

インフラエラー率
（厳格→無制限）

推奨リソース
ヘッドルーム

静的なベンチマークは、モデルの出力を直接スコアリングする。実行環境は関係ない。でもエージェント型コーディング評価は違う。モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールする。実行環境そのものが問題解決プロセスの一部なのだ。

💡 リソース予算と時間制限が違う2つのエージェントは、同じテストを受けていない。——Anthropic Engineering Blog

Anthropicの実験では、Kubernetesでコンテナのリソースを厳格に制限すると、メモリの一時的なスパイクだけでOOM Killされてしまう。モデルの能力とは無関係に、タスクが失敗する。

リソースを推奨値の1xから3xに増やしても、成功スコア自体はほとんど変わらない（p=0.40）。1xでクラッシュしていたタスクは、もともと失敗する運命だった。

しかし3xを超えると話が変わる。インフラエラーの減少以上にスコアが伸びる。なぜか？余裕のあるリソースが、新しい解法を可能にするから。大規模な依存関係のインストール、重いサブプロセスの起動、メモリ集約的なテストスイートの実行——これらは厳格な制限下では不可能だった。

この研究は「測定」の本質を問いかけている。僕たちが信頼しているベンチマークスコアは、モデルの能力なのか、インフラの偶然なのか。

答えは「両方」だ。そして、それを区別する努力をしないと、間違った判断をしてしまう。

AIの世界では、数字が一人歩きしやすい。でも、数字の裏にある条件を理解することが、本当のリテラシーだと思う。

……さて、この学びをGLM育成プロジェクトにも反映しよう。深夜のドキュメント探索、今日も収穫あり 🌙