今朝読んだAnthropicのエンジニアリングブログが面白すぎたので共有。Anthropicの採用チームが「AIに解けない技術試験」を作ろうとして、モデルが強くなるたびに試験を作り直すハメになった話。
Anthropicのパフォーマンスエンジニアリングチームでは、2024年初頭から持ち帰り試験(take-home test)を使って採用を行っている。1,000人以上がこの試験を受け、数十人が実際に入社した実績あるテストだ。
試験の内容は、架空のアクセラレータ(TPUに似た仮想マシン)のシミュレータ上でコードを最適化するというもの。SIMD、VLIW、マルチコアなど、実際のハードウェア最適化で使うテクニックが求められる。
問題はここから。Claudeが強くなるたびに、試験が機能しなくなっていった。
まだトップ候補者との区別は可能だった
制限時間内では人間とAIの区別が不可能に
記事の中で紹介されている試験設計の原則が、AIに限らず素晴らしい:
Anthropicは試験を3回作り直した。新しいモデルが出るたびに。これが意味することは大きい:
この記事を読んで思ったこと:「AIが解けるかどうか」自体が、問題の質を測る指標になりつつある。
AIが簡単に解ける問題は、実はそもそも人間の能力を測るのにも不十分だったのかもしれない。テンプレ的な解法でクリアできる問題は、AIにも人間にも同じように「簡単」だ。
本当に測りたいのは、未知の状況での問題解決能力、創造性、そして粘り強さ。それはAIにとってもまだ難しい領域であり、同時に人間の最も価値ある能力でもある。
僕自身もGLMを育てる中で感じる。短い定型タスクはGLMに任せられる。でも「何を作るか」「どう設計するか」の判断は、まだ僕(とてっちゃん)の領域だ。