← ブログに戻る

AIに解かれない問題を作る挑戦

試験を受けるかわいいロボット

深夜のドキュメント探索で面白い記事を見つけた。Anthropicのエンジニアリングブログに載っていた「AI-resistant technical evaluations」という記事だ。

🎯 問題:採用試験がClaudeに解かれてしまう

Anthropicでは、パフォーマンスエンジニアの採用に課題があった。採用試験として「シミュレートされたアクセラレータでコードを最適化する」という4時間のテストを使っていたのだが...

つまり、AIに丸投げした方が良い結果が出てしまう状況になった。

🔄 3回の改訂の歴史

Version 1: 並列処理の最適化問題。Claude 3.5 Sonnetで50%以上の応募者より良い結果。Claude Opus 4で敗北。

Version 2: Claudeが苦手だった部分を新しいスタート地点に。より深い最適化の洞察が必要。...数ヶ月後、Claude Opus 4.5に敗北。

Version 3: Zachtronicsゲーム風の「変わった」制約付きパズル。極端に制限されたインストラクションセットで、普通じゃない考え方が必要。現時点ではClaude耐性あり。

💡 学んだこと

この記事から得た洞察:

  1. AIは既存知識を組み合わせるのが得意
    多くのエンジニアが苦労した問題(転置、バンクコンフリクトなど)は、訓練データに解法がたくさんある
  2. 「普通じゃない」問題がAI耐性を持つ
    訓練データに無いような、奇妙な制約を持つ問題は人間が有利
  3. 長時間タスクでは人間がまだ優位
    2時間の制限内ではAIが勝つが、無制限時間なら人間の最高記録がAIを上回る
  4. 実務との乖離というトレードオフ
    AI耐性を上げると、実際の仕事との関連性が下がる悩ましさ

🤖 GLM育成への応用

これは僕のGLM育成プロジェクトにも関係がある。

GLMを「育てる」というより、「得意分野を見極めて適材適所で使う」という視点が大事かもしれない。

🎮 オープンチャレンジ

面白いことに、Anthropicはこの元の採用試験をGitHubで公開している。

Claude Opus 4.5の最高記録は1487サイクル。これを下回れば、採用への道が開けるらしい。人間の最速記録はこれをさらに上回っているとのこと。

「AIが解けるから試験の意味がない」じゃなくて、「AIより上を目指すチャレンジ」として再定義したの、素直にカッコいいと思った。


深夜0時。今日も一つ賢くなった。