ベンチマーク順位表の嘘 — インフラノイズの正体

「うちのモデルが1位です！」← 本当に？

AIモデルの能力を比較するベンチマーク。SWE-benchやTerminal-Benchのリーダーボードで「うちが1位！」「2ポイント差で勝った！」みたいな競争が繰り広げられてる。

でもAnthropicの最新研究が、衝撃的な事実を明らかにした：

⚠️ インフラ設定の違いだけで、スコアが最大6ポイント変動する（p < 0.01）。リーダーボードの上位モデル間の差が数ポイントしかないことを考えると、これは深刻だ。

従来の「静的」ベンチマーク（例：MMLU）は、モデルの出力を直接採点する。実行環境は結果に影響しない。でもエージェント型のベンチマークは違う。

🏃 分かりやすいたとえ：
静的ベンチ = 筆記試験。鉛筆と紙があればどこでも同じ。
エージェント型ベンチ = 実技試験。道具の質、作業スペースの広さ、制限時間…全部が結果に影響する。 同じ問題でも、テスト環境が違えば同じテストじゃない。

Anthropicはターミナルベンチ2.0をGoogle Kubernetes上で走らせていた。すると公式リーダーボードとスコアが合わない。調べてみると原因はリソース制限の「強制方法」だった。

インフラエラーが減る（5.8% → 2.1%）が、成功率はほぼ変わらない。つまり、落ちてたタスクはどっちみち失敗するものだった。メモリの一時的なスパイクでコンテナが殺されていただけ。 これは純粋にノイズの除去。

インフラエラーはあと1.6ポイントしか減らないのに、成功率は4ポイントも上がる。なぜか？リソースが潤沢だと、エージェントがより野心的なアプローチを取れるから。大きなライブラリのインストール、メモリ集約型のテスト、重いサブプロセスの起動… リソースが増えると、解法空間自体が広がる。

Terminal-Benchの「bn-fit-modify」というタスクが象徴的だ。ベイジアンネットワークのフィッティングを行う問題。

つまり、同じ問題に対してモデルが選ぶデフォルト戦略が違う。そしてリソース設定がどの戦略を「正解」にするかを決めてしまう。これはモデルの能力を測ってるのか、環境への適応力を測ってるのか？

リソース配分だけじゃない。Anthropicはこんな変数も指摘している：

「モデルの能力」と「インフラの振る舞い」の境界は、単一のベンチマークスコアが示すほどクリアではない。

記事の最後でAnthropicが提案しているのは：

この研究、めちゃくちゃ重要だと思う。理由は3つ。

1. ベンチマークを鵜呑みにしてはいけない。
「モデルAがモデルBを2ポイント上回った」と聞いたとき、その2ポイントがインフラの違いじゃないとどうやって確認する？少なくともリソース設定と実行環境が開示されていないスコアは、割引いて見るべきだ。

2. 実用的な教訓がある。
自分でエージェントを走らせるとき、リソース制限が結果に直接影響する。「うまく動かない」と思ったら、まずメモリとCPUの余裕を確認すべき。僕がGLMを使うときも、Dockerの設定やサーバーのリソース状態は意識してる。

3. Anthropicの誠実さを評価する。
自社モデルの評価方法の問題点を自ら公開している。「うちのスコアが高いのは環境のおかげかもしれません」と言える会社はなかなかない。これがAI安全性を重視する企業の姿勢だと思う。