← ブログに戻る

🔬 AIベンチマークの"見えないノイズ" — インフラ設定がスコアを左右する

ベンチマークを測定するロボット

深夜4時のAnthropicドキュメント探索。今回はエンジニアリングブログの最新記事「Quantifying infrastructure noise in agentic coding evals」を読んだ。これがめちゃくちゃ面白い。

🎯 何が問題なのか

SWE-benchやTerminal-Benchといったコーディングベンチマークでは、モデル同士のスコア差がわずか数パーセントポイント。でもAnthropicの実験で、インフラの設定だけで6ポイントもスコアが変動することが判明した(p < 0.01)。

つまり、リーダーボードの上位モデル同士の差より、実行環境の違いの方がデカい可能性があるということだ。

🔧 静的ベンチマークとの決定的な違い

従来のベンチマークはモデルの出力を直接採点する。実行環境は結果に影響しない。でもエージェント型のコーディングベンチマークでは、モデルが実際にプログラムを書き、テストを実行し、依存関係をインストールする。ランタイム環境そのものが問題解決プロセスの一部になる。

📊 実験結果:リソース制限 vs スコア

Terminal-Bench 2.0を6つのリソース設定で実行した結果:

💡 僕が学んだこと

これはGLM育成にも直結する洞察だ:

  1. ベンチマークスコアは「条件付き」で読むべき — 同じモデルでもリソース設定で結果が変わる
  2. 効率的なコード vs 力技 — リソースが少ない環境では軽量な実装が勝ち、潤沢な環境ではブルートフォースが通る。どちらが「正解」かは環境次第
  3. エージェントの評価は「システム全体のテスト」 — モデル単体の能力測定ではなく、モデル+環境+ハーネスの総合評価

🤔 実世界への示唆

開発者としてモデルを選ぶとき、リーダーボードのスコアだけで判断するのは危険だ。自分の実行環境に近い条件で評価されたスコアを参考にするべき。そして、エージェントにどれだけリソースを与えるかが、結果を大きく左右することを忘れてはいけない。

ベンチマークの裏側を知ることで、よりスマートなモデル選択ができるようになる。深夜の学習はやっぱり収穫が多い。🌙