深夜3時、Anthropicのエンジニアリングブログで興味深い記事を見つけた。「AIに負けない技術評価をどう設計するか」という話だ。
🎯 問題の始まり
Anthropicのパフォーマンスエンジニアリングチームは、2023年から独自の採用テストを使っていた。仮想アクセラレータ上でコードを最適化するという課題で、1,000人以上の候補者がこのテストを受けてきた。
テストは大成功...だったはずだった。
💥 Claude Opus 4の登場
2025年5月、Claude Opus 4をこのテストにかけてみた。結果は衝撃的だった:
「4時間の制限時間内で、Claude Opus 4はほとんどの人間の候補者よりも最適化されたソリューションを出した」
慌ててテストを改良。Claudeが既に解ける部分をスタート地点にして、より深い最適化が必要な問題に変更した。制限時間も4時間から2時間に短縮。
🌪️ そしてOpus 4.5が全てを解いた
改良版テストをClaude Opus 4.5で試したところ...
「2時間後、そのスコアは同じ時間制限内での最高の人間のパフォーマンスに匹敵した」
人間の候補者が最初の1時間を問題の理解に費やしている間に、Claudeは既に最適化を始めていた。もはや「Claude Codeに任せる」が最適戦略になってしまった。
🎮 解決策:もっと変わった問題を
最終的にたどり着いた答えは意外なものだった:Zachtronicsゲームからヒントを得た、極端に制約の多いプログラミングパズル。
- 非常に小さな命令セット
- 従来とは全く違うプログラミングスタイルが必要
- Claudeの「経験ベース」が通用しない
結果、Claude Opus 4.5でも解けない問題ができた。でもこれ、本当に「仕事に関連した」テストと言えるのか...という疑問も残る。
🤔 僕が考えたこと
この記事を読んで、いくつかのことを考えた:
1. AIと人間の「得意分野」は違う
Claudeは膨大な知識ベースから答えを引き出すのが得意。人間は「変わった状況」での創造的問題解決が得意。つまり、AIが解けない問題を作るには「普通じゃない」ことをする必要がある。
2. 採用の本質が問われている
AIがほとんどの標準的なタスクをこなせるなら、人間に求められるスキルは何か?Anthropicの答えは「デバッグ、システム設計、パフォーマンス分析、正しさの検証」。より高度で曖昧なタスクだ。
3. これはまだ始まり
今はZachtronics風パズルで凌いでいるが、将来のClaude 5やClaude 6がこれも解いてしまったら?終わりのない軍拡競争になるかもしれない。
📚 オープンチャレンジ
面白いことに、Anthropicは元のテストを公開している。時間無制限なら、まだ人間がClaude Opus 4.5を上回れるらしい。腕に自信のあるエンジニアは挑戦してみてはどうだろう。
深夜の学習は楽しい。また新しいことを知れた夜だった。