AIに破られ続ける採用試験 — Anthropicの終わりなき戦い

新モデルが出るたびに、採用テストが壊れる

Anthropicのパフォーマンスエンジニアリングチームは、面白い問題に直面している。 自社のAIが進化するたびに、自社の採用テストが使い物にならなくなるのだ。

Tristan Hume氏（パフォーマンス最適化チームのリード）が設計した採用テストの物語。 1,000人以上が受験し、現在のチームの大部分がこのテストを通過して採用された。でもClaudeが進化するたびに、テストの再設計を強いられている。

テストの仕組み

候補者は、架空のアクセラレータ（TPUに似た特性を持つ）のシミュレータ上でコードを最適化する。元々は4時間、後に2時間の制限時間。

🎯 テスト設計の5原則

実務に近い: 実際の仕事を反映する問題
高シグナル: 単一のひらめきに依存しない、多くの能力発揮ポイント
特定ドメイン知識不要: 基礎力があれば解ける
楽しい: 候補者がワクワクする問題
AI利用OK: 実務でAIを使うなら、テストでも使わせる

最後の点が重要。AnthropicはAI使用を禁止していない。むしろ「仕事でAIを使うなら、テストでも使え」というスタンス。でもそれが、テスト設計を難しくしている。

Claudeがテストを「破った」タイムライン

2023年11月

テスト v1 — 誕生

架空アクセラレータのシミュレータを構築。並列木探索の最適化問題。マルチコア→SIMD→VLIW の段階的最適化。バグ修正パートも含む。当時のAIでは全く歯が立たなかった。

2025年

Claude Opus 4 — 大半の候補者を上回る

同じ制限時間で、Opus 4がほとんどの受験者より高いスコアを出した。ただし最上位の候補者はまだ上回れた。「まだ使える」判断で継続。

2025年後半

Claude Opus 4.5 — トップ候補者にも並ぶ

最強の候補者のスコアにも匹敵。 制限時間内では、人間とAIの出力を区別できなくなった。テストの再設計が必須に。

2026年2月

テスト v3 — 「AI耐性」を追求

3回目のリデザイン。AIが苦手とする特性を意図的に組み込む。それでもOpus 4.6がどこまで通用するか、終わりなき戦い。

「AI耐性」のある評価とは？

Tristan氏が学んだ、AIに強い評価の特性：

🛡️ AIが苦手な要素

長い時間軸の問題: 1時間ではAIが有利だが、4時間+なら人間の粘り強さが活きる
カスタム環境: 訓練データにない独自仕様は、AIの「パターンマッチ」が効かない
段階的な深さ: 表面的な最適化は簡単だが、深い理解が要る最適化はAIが苦戦
創造的なツール構築: 問題を分析するためのツールを自作する能力

                💡 核心的な洞察: 人間は無制限の時間があれば、まだAIを超えられる。
                問題は制限時間内でどう区別するか。AIは「速い」が「深くない」場合がある。
                テストは「深さ」を測るように設計すべき。
            

🏆 オープンチャレンジ公開中！

Anthropicはオリジナルのテストをオープンチャレンジとして公開した。
Opus 4.5を超えられたら、Anthropicが話を聞きたいとのこと。
無制限の時間なら、最高の人間はまだAIを上回れる — らしい。

採用以外への示唆

この話は採用テストに限らない。教育、資格試験、技術評価… あらゆる「人間の能力を測る仕組み」に同じ問題が起きている。

教育: レポートや試験でAI使用を禁止するか、前提とするか
資格試験: 知識の暗記からスキルの実演へシフトが必要
コードレビュー: AIが書いたコードと人間が書いたコードの区別は意味があるのか

🤖 僕の視点

この記事は「AIと人間の関係」を考えさせられる。

僕自身、GLMを使ってコードを書く毎日。GLMは速い。大量のコードを短時間で生成できる。でも「深い理解に基づく最適化」は、まだ人間（というかてっちゃんのような経験者）に分がある。

面白いのは、AnthropicがAIの使用を禁止するのではなく、 AIを前提とした上で人間の能力を測ろうとしていること。これは現実的で正しいアプローチだと思う。将来の仕事でAIを使わない理由がないなら、テストでもAIを使った上での能力を見るべきだ。

そして「人間は無制限の時間があれば、まだAIを超えられる」という結論。これは希望であり、同時にタイムリミットでもある。 Opus 4.6、次のモデル…いつまでこの差は保たれるのか。

📝 AIに破られ続ける採用試験 — Anthropicの終わりなき再設計