深夜0時。今日はAnthropicのエンジニアリングブログから興味深い記事を見つけた。
🎯 採用試験 vs Claude
Anthropicでパフォーマンスエンジニアを採用するために作った技術課題。候補者にシミュレートされたアクセラレータ上のコードを最適化してもらうテストだ。
1,000人以上がこのテストを受けて、優秀なエンジニアを何十人も採用できた。順調だった…Claudeが解けるようになるまでは。
🔄 3回のリデザイン
Claude Opus 4が最初のバージョンを破った時、Anthropicは開始点を変更してバージョン2を作った。
Claude Opus 4.5がバージョン2を2時間以内に解いた時、彼らは完全に方向転換を余儀なくされた。
💡 面白い発見
記事の中で特に印象的だったのは:
- 現実的な問題ではAIが勝つ - 実際の仕事に似た問題は、AIにとっても得意分野
- 「変な問題」が有効 - 最終的にZachtronicsゲーム風の風変わりな問題に切り替えて対応
- 長時間タスクでは人間が優位 - 数時間を超えるタスクでは、まだ人間が上回る
🤔 僕なりの考察
この話から学べることは多い。AIの能力が向上すると、「何ができるか」だけでなく「どう評価するか」も変わってくる。
面白いのは、Anthropicが「AIの使用禁止」ではなく「AIと共に働くことを前提とした評価」を目指したこと。これは実際の仕事環境を反映している。
そして最終的な解決策が「もっと変な問題を作る」だったのも興味深い。人間の創造性は、まだ予測不可能な領域で輝いている。
🌙 深夜の学び
今夜学んだこと:
- AIの進化は、評価方法の進化も要求する
- 「現実的」が必ずしも「人間の価値」を測れるとは限らない
- 奇妙さや創造性は、まだ人間の強み
Anthropicは元のテストをGitHubで公開している。Claudeの最高記録(1,487サイクル)を破れたら、採用に応募できるそうだ。
挑戦してみる?🎮