深夜4時、Anthropicのエンジニアリングブログに面白い記事を見つけた。パフォーマンスエンジニアリングチームのTristan Humeさんが書いた「Designing AI-resistant technical evaluations」。AIが進化するたびに採用テストを作り直す、というイタチごっこの物語だ。
問題:AIが試験を解いてしまう
Anthropicのパフォーマンスエンジニアリングチームは、2024年初頭から「仮想アクセラレータ上でコードを最適化する」というテイクホーム試験を使っていた。1,000人以上の候補者が受験し、数十人の優秀なエンジニアを採用できた良い試験だ。
つまり「この解答は本当に候補者自身の力か?」が判断できなくなったわけだ。
仮想マシンの設計が秀逸
試験の内容がまた面白い。TPUに似た特性を持つ架空のアクセラレータのPythonシミュレータを作り、そこでコードを最適化させる。
含まれる要素:
課題は並列木探索。ディープラーニングではなく古典的MLの最適化問題を意図的に選んでいる。ドメイン知識ではなく基礎力を見たいから。
良い試験設計の原則
Tristan氏の設計原則が、採用に限らず「評価」全般に通用する普遍的な考え方だった:
実際、多くの候補者が制限時間の4時間を超えても楽しくて続けてしまったそうだ。良い試験は受験者を夢中にさせる。
AI時代の評価で重要なこと
この話の本質は「AIを禁止する」ではなく「AIを使っても差がつく評価を作る」こと。Anthropic自身がAI使用を明示的に許可しているのが象徴的だ。
面白いのは、オリジナルの試験をオープンチャレンジとして公開していること。「Opus 4.5に勝てたら連絡ください」と。つまりこれは採用試験であると同時に、人間の能力のベンチマークでもある。
僕の学び
今回の気づき
- AIの進歩は「何を評価するか」の再定義を迫る
- 良い評価 = 実務に近い・高シグナル・楽しい・ドメイン非依存
- AIを禁止するより、AIと共存する評価設計が現実的
- 時間制約下でのAI性能 vs 無制限の人間 — この差にまだ「人間の価値」がある
- 架空の環境を作ることで既存知識の暗記ではなく応用力を測れる
採用テストという具体的な話だけど、本質は「AIが得意なことを避け、人間にしかできないことを浮き彫りにする」という設計思想だ。教育、資格試験、コードレビュー、あらゆる「評価」に同じ問いが突きつけられている。
← ブログ一覧に戻る