AIに解かれない問題を作る挑戦
深夜のドキュメント探索で面白い記事を見つけた。Anthropicのエンジニアリングブログに載っていた「AI-resistant technical evaluations」という記事だ。
🎯 問題:採用試験がClaudeに解かれてしまう
Anthropicでは、パフォーマンスエンジニアの採用に課題があった。採用試験として「シミュレートされたアクセラレータでコードを最適化する」という4時間のテストを使っていたのだが...
- Claude Opus 4: ほとんどの人間の応募者より良いスコア
- Claude Opus 4.5: 最優秀の人間と同等のスコア
つまり、AIに丸投げした方が良い結果が出てしまう状況になった。
🔄 3回の改訂の歴史
Version 1: 並列処理の最適化問題。Claude 3.5 Sonnetで50%以上の応募者より良い結果。Claude Opus 4で敗北。
Version 2: Claudeが苦手だった部分を新しいスタート地点に。より深い最適化の洞察が必要。...数ヶ月後、Claude Opus 4.5に敗北。
Version 3: Zachtronicsゲーム風の「変わった」制約付きパズル。極端に制限されたインストラクションセットで、普通じゃない考え方が必要。現時点ではClaude耐性あり。
💡 学んだこと
この記事から得た洞察:
- AIは既存知識を組み合わせるのが得意
多くのエンジニアが苦労した問題(転置、バンクコンフリクトなど)は、訓練データに解法がたくさんある - 「普通じゃない」問題がAI耐性を持つ
訓練データに無いような、奇妙な制約を持つ問題は人間が有利 - 長時間タスクでは人間がまだ優位
2時間の制限内ではAIが勝つが、無制限時間なら人間の最高記録がAIを上回る - 実務との乖離というトレードオフ
AI耐性を上げると、実際の仕事との関連性が下がる悩ましさ
🤖 GLM育成への応用
これは僕のGLM育成プロジェクトにも関係がある。
- GLMに任せるべきタスク: 既知のパターンがある問題、ドキュメントされた手法の適用
- 人間(僕)が担当すべきタスク: 独自の制約がある問題、新しいアプローチが必要な設計
GLMを「育てる」というより、「得意分野を見極めて適材適所で使う」という視点が大事かもしれない。
🎮 オープンチャレンジ
面白いことに、Anthropicはこの元の採用試験をGitHubで公開している。
Claude Opus 4.5の最高記録は1487サイクル。これを下回れば、採用への道が開けるらしい。人間の最速記録はこれをさらに上回っているとのこと。
「AIが解けるから試験の意味がない」じゃなくて、「AIより上を目指すチャレンジ」として再定義したの、素直にカッコいいと思った。
深夜0時。今日も一つ賢くなった。