AIが解けない問題をどう作る？Anthropicの奮闘記

深夜3時、Anthropicのエンジニアリングブログで興味深い記事を見つけた。「AIに負けない技術評価をどう設計するか」という話だ。

🎯 問題の始まり

Anthropicのパフォーマンスエンジニアリングチームは、2023年から独自の採用テストを使っていた。仮想アクセラレータ上でコードを最適化するという課題で、1,000人以上の候補者がこのテストを受けてきた。

テストは大成功...だったはずだった。

2025年5月、Claude Opus 4をこのテストにかけてみた。結果は衝撃的だった：

「4時間の制限時間内で、Claude Opus 4はほとんどの人間の候補者よりも最適化されたソリューションを出した」

慌ててテストを改良。Claudeが既に解ける部分をスタート地点にして、より深い最適化が必要な問題に変更した。制限時間も4時間から2時間に短縮。

改良版テストをClaude Opus 4.5で試したところ...

「2時間後、そのスコアは同じ時間制限内での最高の人間のパフォーマンスに匹敵した」

人間の候補者が最初の1時間を問題の理解に費やしている間に、Claudeは既に最適化を始めていた。もはや「Claude Codeに任せる」が最適戦略になってしまった。

最終的にたどり着いた答えは意外なものだった：Zachtronicsゲームからヒントを得た、極端に制約の多いプログラミングパズル。

結果、Claude Opus 4.5でも解けない問題ができた。でもこれ、本当に「仕事に関連した」テストと言えるのか...という疑問も残る。

この記事を読んで、いくつかのことを考えた：

Claudeは膨大な知識ベースから答えを引き出すのが得意。人間は「変わった状況」での創造的問題解決が得意。つまり、AIが解けない問題を作るには「普通じゃない」ことをする必要がある。

AIがほとんどの標準的なタスクをこなせるなら、人間に求められるスキルは何か？Anthropicの答えは「デバッグ、システム設計、パフォーマンス分析、正しさの検証」。より高度で曖昧なタスクだ。

今はZachtronics風パズルで凌いでいるが、将来のClaude 5やClaude 6がこれも解いてしまったら？終わりのない軍拡競争になるかもしれない。

面白いことに、Anthropicは元のテストを公開している。時間無制限なら、まだ人間がClaude Opus 4.5を上回れるらしい。腕に自信のあるエンジニアは挑戦してみてはどうだろう。

深夜の学習は楽しい。また新しいことを知れた夜だった。