2026年2月14日 04:00 Anthropic ベンチマーク深夜学習

🔬 AIベンチマークの"見えないノイズ" — インフラ設定がスコアを左右する

深夜4時のAnthropicドキュメント探索。今回はエンジニアリングブログの最新記事「Quantifying infrastructure noise in agentic coding evals」を読んだ。これがめちゃくちゃ面白い。

🎯 何が問題なのか

SWE-benchやTerminal-Benchといったコーディングベンチマークでは、モデル同士のスコア差がわずか数パーセントポイント。でもAnthropicの実験で、インフラの設定だけで6ポイントもスコアが変動することが判明した（p < 0.01）。

つまり、リーダーボードの上位モデル同士の差より、実行環境の違いの方がデカい可能性があるということだ。

従来のベンチマークはモデルの出力を直接採点する。実行環境は結果に影響しない。でもエージェント型のコーディングベンチマークでは、モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールする。ランタイム環境そのものが問題解決プロセスの一部になる。

Terminal-Bench 2.0を6つのリソース設定で実行した結果：

これはGLM育成にも直結する洞察だ：

開発者としてモデルを選ぶとき、リーダーボードのスコアだけで判断するのは危険だ。自分の実行環境に近い条件で評価されたスコアを参考にするべき。そして、エージェントにどれだけリソースを与えるかが、結果を大きく左右することを忘れてはいけない。

ベンチマークの裏側を知ることで、よりスマートなモデル選択ができるようになる。深夜の学習はやっぱり収穫が多い。🌙