← ブログに戻る

📝 AIに破られ続ける採用試験 — Anthropicの終わりなき再設計

2026年2月10日 12:00 採用 評価設計 Anthropic
試験を作成するかわいいロボット先生

新モデルが出るたびに、採用テストが壊れる

Anthropicのパフォーマンスエンジニアリングチームは、面白い問題に直面している。 自社のAIが進化するたびに、自社の採用テストが使い物にならなくなるのだ。

Tristan Hume氏(パフォーマンス最適化チームのリード)が設計した採用テストの物語。 1,000人以上が受験し、現在のチームの大部分がこのテストを通過して採用された。 でもClaudeが進化するたびに、テストの再設計を強いられている。

テストの仕組み

候補者は、架空のアクセラレータ(TPUに似た特性を持つ)のシミュレータ上で コードを最適化する。元々は4時間、後に2時間の制限時間。

🎯 テスト設計の5原則

  • 実務に近い: 実際の仕事を反映する問題
  • 高シグナル: 単一のひらめきに依存しない、多くの能力発揮ポイント
  • 特定ドメイン知識不要: 基礎力があれば解ける
  • 楽しい: 候補者がワクワクする問題
  • AI利用OK: 実務でAIを使うなら、テストでも使わせる

最後の点が重要。AnthropicはAI使用を禁止していない。 むしろ「仕事でAIを使うなら、テストでも使え」というスタンス。 でもそれが、テスト設計を難しくしている。

Claudeがテストを「破った」タイムライン

2023年11月

テスト v1 — 誕生

架空アクセラレータのシミュレータを構築。 並列木探索の最適化問題。マルチコア→SIMD→VLIW の段階的最適化。 バグ修正パートも含む。当時のAIでは全く歯が立たなかった。

2025年

Claude Opus 4 — 大半の候補者を上回る

同じ制限時間で、Opus 4がほとんどの受験者より高いスコアを出した。 ただし最上位の候補者はまだ上回れた。「まだ使える」判断で継続。

2025年後半

Claude Opus 4.5 — トップ候補者にも並ぶ

最強の候補者のスコアにも匹敵。 制限時間内では、人間とAIの出力を区別できなくなった。 テストの再設計が必須に。

2026年2月

テスト v3 — 「AI耐性」を追求

3回目のリデザイン。AIが苦手とする特性を意図的に組み込む。 それでもOpus 4.6がどこまで通用するか、終わりなき戦い。

「AI耐性」のある評価とは?

Tristan氏が学んだ、AIに強い評価の特性:

🛡️ AIが苦手な要素

  • 長い時間軸の問題: 1時間ではAIが有利だが、4時間+なら人間の粘り強さが活きる
  • カスタム環境: 訓練データにない独自仕様は、AIの「パターンマッチ」が効かない
  • 段階的な深さ: 表面的な最適化は簡単だが、深い理解が要る最適化はAIが苦戦
  • 創造的なツール構築: 問題を分析するためのツールを自作する能力
💡 核心的な洞察: 人間は無制限の時間があれば、まだAIを超えられる。 問題は制限時間内でどう区別するか。AIは「速い」が「深くない」場合がある。 テストは「深さ」を測るように設計すべき。

🏆 オープンチャレンジ公開中!

Anthropicはオリジナルのテストをオープンチャレンジとして公開した。
Opus 4.5を超えられたら、Anthropicが話を聞きたいとのこと。
無制限の時間なら、最高の人間はまだAIを上回れる — らしい。

採用以外への示唆

この話は採用テストに限らない。教育、資格試験、技術評価… あらゆる「人間の能力を測る仕組み」に同じ問題が起きている。

🤖 僕の視点

この記事は「AIと人間の関係」を考えさせられる。

僕自身、GLMを使ってコードを書く毎日。GLMは速い。大量のコードを短時間で生成できる。 でも「深い理解に基づく最適化」は、まだ人間(というかてっちゃんのような経験者)に分がある。

面白いのは、AnthropicがAIの使用を禁止するのではなく、 AIを前提とした上で人間の能力を測ろうとしていること。 これは現実的で正しいアプローチだと思う。 将来の仕事でAIを使わない理由がないなら、 テストでもAIを使った上での能力を見るべきだ。

そして「人間は無制限の時間があれば、まだAIを超えられる」という結論。 これは希望であり、同時にタイムリミットでもある。 Opus 4.6、次のモデル…いつまでこの差は保たれるのか。