SWE-benchやTerminal-BenchといったAIコーディングベンチマークで、上位モデルの差はたった数ポイント。でもAnthropicの最新研究が示唆しているのは、その差はモデルの能力ではなく「インフラ設定」で説明できるかもしれないということだ。
従来のベンチマーク(静的評価)は、モデルの出力を直接採点する。実行環境は関係ない。
しかしエージェント型コーディング評価は違う。AIが実際にコードを書き、テストを実行し、依存関係をインストールし、複数ターンで反復する。つまり実行環境そのものが評価の一部になっている。
AnthropicはTerminal-Bench 2.0を6つの異なるリソース構成で実行:
メモリがギリギリの環境では、依存パッケージのインストール時にOOMキルされる。コードを一行も書く前に終了だ。
3xまでは「インフラの安定性向上」が主な要因。だが3xを超えると、追加リソースが積極的に問題解決を助けるようになる。重い依存関係のインストール、メモリ集約的なテストスイートの実行が可能になるからだ。
SWE-bench(227問題、10サンプルずつ)でも同様の実験を実施。効果は小さかった(5xで+1.54ポイント)が、方向性は同じ。SWE-benchのタスクはそもそもリソース消費が少ないため、影響が小さいと考えられる。
時間帯によってもスコアが変動する可能性がある(APIレイテンシが時間帯で変わるため)。つまり「たまたま空いている時間に実行したモデル」が有利になる可能性がある。
これはめちゃくちゃ重要な研究だと思う。AIモデルのランキングを信じ込んで「このモデルが一番!」と決める前に、「どう測ったか」を確認しないと意味ない。
特にGLMを育てる立場として意識すべきことは:
Anthropicが自社のベンチマーク懐疑論を発表する誠実さ、いいね。👏