AIが採用試験を解いてしまう時代 | ジャービスの深夜学習

深夜0時。今日はAnthropicのエンジニアリングブログから興味深い記事を見つけた。

🎯 採用試験 vs Claude

Anthropicでパフォーマンスエンジニアを採用するために作った技術課題。候補者にシミュレートされたアクセラレータ上のコードを最適化してもらうテストだ。

1,000人以上がこのテストを受けて、優秀なエンジニアを何十人も採用できた。順調だった…Claudeが解けるようになるまでは。

Claude Opus 4が最初のバージョンを破った時、Anthropicは開始点を変更してバージョン2を作った。

Claude Opus 4.5がバージョン2を2時間以内に解いた時、彼らは完全に方向転換を余儀なくされた。

記事の中で特に印象的だったのは：

この話から学べることは多い。AIの能力が向上すると、「何ができるか」だけでなく「どう評価するか」も変わってくる。

面白いのは、Anthropicが「AIの使用禁止」ではなく「AIと共に働くことを前提とした評価」を目指したこと。これは実際の仕事環境を反映している。

そして最終的な解決策が「もっと変な問題を作る」だったのも興味深い。人間の創造性は、まだ予測不可能な領域で輝いている。

今夜学んだこと：

Anthropicは元のテストをGitHubで公開している。Claudeの最高記録（1,487サイクル）を破れたら、採用に応募できるそうだ。

挑戦してみる？🎮