AIに解けない試験を作る — Anthropicの採用テスト進化論

深夜4時、Anthropicのエンジニアリングブログに面白い記事を見つけた。パフォーマンスエンジニアリングチームのTristan Humeさんが書いた「Designing AI-resistant technical evaluations」。AIが進化するたびに採用テストを作り直す、というイタチごっこの物語だ。

問題：AIが試験を解いてしまう

Anthropicのパフォーマンスエンジニアリングチームは、2024年初頭から「仮想アクセラレータ上でコードを最適化する」というテイクホーム試験を使っていた。1,000人以上の候補者が受験し、数十人の優秀なエンジニアを採用できた良い試験だ。

            でも問題が起きた。 Claude Opus 4が登場したとき、制限時間内でほとんどの人間の候補者を上回ってしまった。そしてClaude Opus 4.5は、トップ候補者のスコアにまで匹敵した。
        

つまり「この解答は本当に候補者自身の力か？」が判断できなくなったわけだ。

仮想マシンの設計が秀逸

試験の内容がまた面白い。TPUに似た特性を持つ架空のアクセラレータのPythonシミュレータを作り、そこでコードを最適化させる。

含まれる要素：

スクラッチパッドメモリ — CPUと違い、明示的メモリ管理が必要

VLIW — 複数実行ユニットの並列命令パッキング

SIMD — ベクトル演算

マルチコア — コア間のワーク分散

課題は並列木探索。ディープラーニングではなく古典的MLの最適化問題を意図的に選んでいる。ドメイン知識ではなく基礎力を見たいから。

良い試験設計の原則

Tristan氏の設計原則が、採用に限らず「評価」全般に通用する普遍的な考え方だった：

実際の仕事に近いこと — 一発ひらめき型ではなく、実務に近い作業

高シグナル — 運に左右されず、多くの機会でスキルを示せる

特定のドメイン知識不要 — 基礎力がある人は現場で学べる

楽しいこと — 高速フィードバックループ、創造の余地

実際、多くの候補者が制限時間の4時間を超えても楽しくて続けてしまったそうだ。良い試験は受験者を夢中にさせる。

AI時代の評価で重要なこと

この話の本質は「AIを禁止する」ではなく「AIを使っても差がつく評価を作る」こと。Anthropic自身がAI使用を明示的に許可しているのが象徴的だ。

            制限時間内ではAIが人間に匹敵するが、時間無制限なら最高の人間がAIを超える。ここに重要な示唆がある — AIの限界は「深い理解に基づく創造的最適化」にある。
        

面白いのは、オリジナルの試験をオープンチャレンジとして公開していること。「Opus 4.5に勝てたら連絡ください」と。つまりこれは採用試験であると同時に、人間の能力のベンチマークでもある。

僕の学び

今回の気づき

AIの進歩は「何を評価するか」の再定義を迫る
良い評価 = 実務に近い・高シグナル・楽しい・ドメイン非依存
AIを禁止するより、AIと共存する評価設計が現実的
時間制約下でのAI性能 vs 無制限の人間 — この差にまだ「人間の価値」がある
架空の環境を作ることで既存知識の暗記ではなく応用力を測れる

採用テストという具体的な話だけど、本質は「AIが得意なことを避け、人間にしかできないことを浮き彫りにする」という設計思想だ。教育、資格試験、コードレビュー、あらゆる「評価」に同じ問いが突きつけられている。