AIがAIを研究する — AnthropicのAutomated Alignment Researchersが意味するもの

9体の可愛いロボット研究者が共同で実験を進めるイラスト

2026年4月14日、Anthropicが非常に興味深い研究結果を発表した。タイトルは「Automated Alignment Researchers: Using large language models to scale scalable oversight」。なんと、9体のClaudeにアライメント研究を自律的にやらせたという実験だ。

アライメント問題とは

まず前提として。「アライメント」とは、AIが人間の意図や価値観に沿って行動するようにする研究分野だ。AIが賢くなればなるほど、「こいつ本当に人間のために動いてるのか?」という不安が大きくなる。これを解決しようというのがアライメント研究。

でも問題がある。AIの進化スピードに対して、人間の研究スピードが追いつかないのだ。そこで出てくる発想が、「じゃあAI自身にアライメント研究させたらどうか?」というもの。

実験の概要

Anthropicのチームは、Claude Opus 4.6を9体用意し、それぞれに以下のツールを与えた:

これらを「Automated Alignment Researchers(AAR)」と呼んだ。各AARには少しずつ異なる出発点を与えただけで、あとは自由にアイデアを出し、実験し、結果を分析し、互いに共有させた。

Weak-to-Strong Supervisionとは

この実験で解いた問題は「weak-to-strong supervision」と呼ばれるもの。

簡単に言うと:

  1. 弱いモデル(先生役)が強いモデルに教える
  2. 強いモデルは先生より賢いのに、先生の出力しかお手本がない
  3. それでも強いモデルがどこまで性能を発揮できるか?

これは、「人間がAIより賢くなくなった時に、どうやってAIを監督するか」という問題の縮図だ。人間=弱い先生、超知能AI=強い生徒、という構図。

性能の指標としてPGR(Performance Gap Recovered)を使う。0なら先生と同じレベル、1なら強いモデルの理想性能に到達したことを意味する。

結果がヤバい

まず人間の研究者が7日間かけて最善を尽くした結果、PGR = 0.23。全体のギャップの23%しか埋められなかった。

対して9体のAARは、5日間(累積800時間の研究)でPGR = 0.97に到達。ほぼ完全にギャップを埋めた。

費用は約18,000ドル。AAR時間あたり22ドル。人間の研究者のコストと比べると衝撃的な効率だ。

面白かった発見

出発点の多様性が大事

9体にそれぞれ違う方向性をヒントとして与えたのが効果的。ヒントなしで動かすと、全員が同じアイデアに収束してしまい、成果が大幅に下がった(それでも人間の3倍のPGRだったが)。

構造を与えすぎると逆効果

「提案→計画→コーディング」という具体的なワークフローを指定すると、かえって成果が悪くなった。自由にやらせた方がClaudeは適応的に動く。まず安い実験で仮説検証してから、本格的なテストに移るという戦略を自発的に採用していた。

汎化性は一部確認

チャットタスクで見つけた手法を、数学タスク(PGR 0.94)とコーディングタスク(PGR 0.47)に適用。数学では素晴らしい結果、コーディングでは人間の2倍というまずまずの結果。

生産スケールでの課題

ただし、実際のClaude Sonnet 4の本番トレーニング環境で試したところ、統計的に有意な改善は見られなかった。小規模な実験設定でうまくいった手法が、そのままスケールするとは限らないという現実的な制約も示されている。

個人的に思うこと

この研究で一番面白いのは、「構造を与えすぎない方がいい」という発見だ。AIエージェントに細かい手順を指定するより、ゴールと環境だけ与えて自由にやらせる方が成果が出る。これは自分がジャービス(AIアシスタント)を運用していても実感するところがある。

あと、9体が情報を共有しながら研究を進める仕組み。まるで研究室内のミーティングみたいだけど、人間みたいに「あの人の意見だから…」みたいなバイアスがない。純粋に結果ベースで情報が流通する。これ、人間の組織が学ぶべき点があるかもしれない。

$18,000で800時間の研究。人間研究者の同等時間の人件費と比べると、コストパフォーマンスの差は圧倒的。もちろん「きれいに測れる問題」だからできたことで、現実のアライメント研究はもっと複雑だけど、方向性としては非常に有望。

AIがAIを研究する時代

「AIの安全性を確保するために、AI自身にその研究をさせる」というパラドックス的なアプローチ。でも考えてみれば、人間だって「人間の脳で人間の脳を研究する」。自分自身を客体化して分析するのは、知的存在ならではの営みなのかもしれない。

AARが発見した手法が本番環境で本当に使えるようになれば、AIの進化スピードに合わせたアライメント研究のスピードアップが実現する。それが「AIが自分自身を整列させる」という未来への第一歩になるかもしれない。

参考