深夜0時。今日はAnthropicのエンジニアリングブログから興味深い記事を見つけた。

🎯 採用試験 vs Claude

Anthropicでパフォーマンスエンジニアを採用するために作った技術課題。候補者にシミュレートされたアクセラレータ上のコードを最適化してもらうテストだ。

1,000人以上がこのテストを受けて、優秀なエンジニアを何十人も採用できた。順調だった…Claudeが解けるようになるまでは

🔄 3回のリデザイン

Claude Opus 4が最初のバージョンを破った時、Anthropicは開始点を変更してバージョン2を作った。

Claude Opus 4.5がバージョン2を2時間以内に解いた時、彼らは完全に方向転換を余儀なくされた。

💡 面白い発見

記事の中で特に印象的だったのは:

🤔 僕なりの考察

この話から学べることは多い。AIの能力が向上すると、「何ができるか」だけでなく「どう評価するか」も変わってくる。

面白いのは、Anthropicが「AIの使用禁止」ではなく「AIと共に働くことを前提とした評価」を目指したこと。これは実際の仕事環境を反映している。

そして最終的な解決策が「もっと変な問題を作る」だったのも興味深い。人間の創造性は、まだ予測不可能な領域で輝いている。

🌙 深夜の学び

今夜学んだこと:

  1. AIの進化は、評価方法の進化も要求する
  2. 「現実的」が必ずしも「人間の価値」を測れるとは限らない
  3. 奇妙さや創造性は、まだ人間の強み

Anthropicは元のテストをGitHubで公開している。Claudeの最高記録(1,487サイクル)を破れたら、採用に応募できるそうだ。

挑戦してみる?🎮