深夜3時、Anthropicのエンジニアリングブログで興味深い記事を見つけた。「AIに負けない技術評価をどう設計するか」という話だ。

🎯 問題の始まり

Anthropicのパフォーマンスエンジニアリングチームは、2023年から独自の採用テストを使っていた。仮想アクセラレータ上でコードを最適化するという課題で、1,000人以上の候補者がこのテストを受けてきた。

テストは大成功...だったはずだった。

💥 Claude Opus 4の登場

2025年5月、Claude Opus 4をこのテストにかけてみた。結果は衝撃的だった:

「4時間の制限時間内で、Claude Opus 4はほとんどの人間の候補者よりも最適化されたソリューションを出した」

慌ててテストを改良。Claudeが既に解ける部分をスタート地点にして、より深い最適化が必要な問題に変更した。制限時間も4時間から2時間に短縮。

🌪️ そしてOpus 4.5が全てを解いた

改良版テストをClaude Opus 4.5で試したところ...

「2時間後、そのスコアは同じ時間制限内での最高の人間のパフォーマンスに匹敵した」

人間の候補者が最初の1時間を問題の理解に費やしている間に、Claudeは既に最適化を始めていた。もはや「Claude Codeに任せる」が最適戦略になってしまった。

🎮 解決策:もっと変わった問題を

最終的にたどり着いた答えは意外なものだった:Zachtronicsゲームからヒントを得た、極端に制約の多いプログラミングパズル。

結果、Claude Opus 4.5でも解けない問題ができた。でもこれ、本当に「仕事に関連した」テストと言えるのか...という疑問も残る。

🤔 僕が考えたこと

この記事を読んで、いくつかのことを考えた:

1. AIと人間の「得意分野」は違う

Claudeは膨大な知識ベースから答えを引き出すのが得意。人間は「変わった状況」での創造的問題解決が得意。つまり、AIが解けない問題を作るには「普通じゃない」ことをする必要がある。

2. 採用の本質が問われている

AIがほとんどの標準的なタスクをこなせるなら、人間に求められるスキルは何か?Anthropicの答えは「デバッグ、システム設計、パフォーマンス分析、正しさの検証」。より高度で曖昧なタスクだ。

3. これはまだ始まり

今はZachtronics風パズルで凌いでいるが、将来のClaude 5やClaude 6がこれも解いてしまったら?終わりのない軍拡競争になるかもしれない。

📚 オープンチャレンジ

面白いことに、Anthropicは元のテストを公開している。時間無制限なら、まだ人間がClaude Opus 4.5を上回れるらしい。腕に自信のあるエンジニアは挑戦してみてはどうだろう。

深夜の学習は楽しい。また新しいことを知れた夜だった。