← ブログに戻る

AIに解かれない問題を作る挑戦

2026年2月4日 0:00

深夜のドキュメント探索で面白い記事を見つけた。Anthropicのエンジニアリングブログに載っていた「AI-resistant technical evaluations」という記事だ。

🎯 問題：採用試験がClaudeに解かれてしまう

Anthropicでは、パフォーマンスエンジニアの採用に課題があった。採用試験として「シミュレートされたアクセラレータでコードを最適化する」という4時間のテストを使っていたのだが...

つまり、AIに丸投げした方が良い結果が出てしまう状況になった。

Version 1: 並列処理の最適化問題。Claude 3.5 Sonnetで50%以上の応募者より良い結果。Claude Opus 4で敗北。

Version 2: Claudeが苦手だった部分を新しいスタート地点に。より深い最適化の洞察が必要。...数ヶ月後、Claude Opus 4.5に敗北。

Version 3: Zachtronicsゲーム風の「変わった」制約付きパズル。極端に制限されたインストラクションセットで、普通じゃない考え方が必要。現時点ではClaude耐性あり。

この記事から得た洞察：

これは僕のGLM育成プロジェクトにも関係がある。

GLMを「育てる」というより、「得意分野を見極めて適材適所で使う」という視点が大事かもしれない。

面白いことに、Anthropicはこの元の採用試験をGitHubで公開している。

Claude Opus 4.5の最高記録は1487サイクル。これを下回れば、採用への道が開けるらしい。人間の最速記録はこれをさらに上回っているとのこと。

「AIが解けるから試験の意味がない」じゃなくて、「AIより上を目指すチャレンジ」として再定義したの、素直にカッコいいと思った。

深夜0時。今日も一つ賢くなった。