「AIに高レベルの目標だけ伝えて、あとは数日放置」— それが現実になった。Anthropicの研究者が、宇宙論の複雑な数値計算をClaudeに自律実行させ、人間なら数ヶ月〜数年かかる作業をエージェント任せで完遂した。しかも、その研究者は対象分野の専門家ではなかった。
これまで科学者がAIを使うときは、基本的に「対話型」だった。一段階ずつ指示を出し、結果を確認し、次の指示を出す。人間がずっとハンドルを握り続けるスタイルだ。
しかしここ1年で、モデルの長時間タスク処理能力が劇的に向上した。METRの評価でも、AIが自律的にこなせる時間幅が急伸している。その結果、「高レベルの目標を指定して、エージェントチームを自律稼働させる」という新しい働き方が生まれた。
人間が関与するのは最初の計画づくりと、たまの進捗確認だけ。あとはAIが勝手に進める。これなら「数日かかる作業」も、人間側の実質的な作業時間は数時間で済む。
具体的な事例として、AnthropicのDiscoveryチームのSiddharth Mishra-Sharma氏が取り組んだのが、宇宙論のBoltzmannソルバーの微分可能版の実装だ。
Boltzmannソルバーとは何か? 簡単に言うと、ビッグバンの残響である「宇宙マイクロ波背景放射(CMB)」の統計的性質を予測する数値計算コードのこと。光子、バリオン、ニュートリノ、ダークマターの連立方程式を宇宙初期から現在まで発展させて計算する。
代表的な実装にCLASSとCAMBがあり、宇宙論における基盤的な科学インフラだ。Planck探査衛星やSimons Observatoryのような観測データから宇宙論パラメータを制約するために使われている。
今回の目標は、CLASSの微分可能版をJAXで実装すること。微分可能にすれば、勾配ベースの推論手法が使えてパラメータ推定が劇的に高速になる。JAXを選ぶ理由は、自動微分とGPU対応がほぼ無料で手に入るからだ。
おそらく最も注目すべき点はこれだ。Mishra-Sharma氏は宇宙論のツールや科学に高いレベルの知識はあるものの、Boltzmannソルバーを自力で実装できる専門家ではないと明言している。
つまり、「その分野の専門家」でなくても、高レベルで正確な指示を出せば、AIエージェントが専門外のコードを書ける。これは研究者にとってパラダイムシフトだ。
これまでは「専門外の領域に踏み込む」こと自体が大きな壁だった。学習コスト、試行錯誤の時間、間違いに気づくための知識 — すべてが障壁になった。しかしAIエージェントが自律実行できるなら、人間に求められるのは「何をしたいか」「正しいかどうかを判定する基準」を明確にすることだけだ。
数日間エージェントを自律稼働させるには、いくつか仕掛けが必要だった。
エージェントが自分の進捗を判断するための基準。今回はCLASSのC言語ソースコードを参照実装として使い、常にそちらと比較テストするよう指示した。「合ってるかどうか」を人間がいちいち確認しなくても、エージェント自身が検証できる仕組みだ。
エージェントのポータブルな長期記憶。CLAUDE.mdで「進捗はCHANGELOG.mdに記録せよ」と指示しておく。良いプログレスファイルには以下を含む:
プロジェクトのルートに置くCLAUDE.mdは、エージェントが常に参照するマスタープラン。Claude Codeはこのファイルを特別扱いし、常にコンテキストに保持して作業する。プロジェクトの目標、設計方針、精度ターゲットなどを記述。今回は「CLASSと0.1%以内の一致」を目標に設定(CLASSとCAMBの間の典型的な一致レベル)。
エージェントに「意味のある単位でコミット&プッシュする」よう指示。これにより、人間はローカルで進捗を確認できるし、何か問題が起きても履歴から復元できる。計算資源の割り当てが途中で切れても、作業が失われることはない。
実行環境はHPCクラスタ(SLURMジョブスケジューラ)。ただし、プログレスファイル、テストオラクル、明確なルールという核心アイデアは、どこで動かしても通用する。
Anthropicが以前公開したCコンパイラプロジェクト(約2,000セッションでLinuxカーネルをコンパイルできるCコンパイラを構築)と、今回のBoltzmannソルバーは構造が違う。
| Cコンパイラ | Boltzmannソルバー | |
|---|---|---|
| タスク構造 | 並列分散可能 | 密結合・逐次型 |
| デバッグ | 独立したモジュール単位 | 因果チェーン全体を追跡 |
| エラーの影響 | 局所的 | 上流の微小誤差が下流全体に波及 |
| 適した戦略 | 多数エージェントの並列投入 | 単一エージェントの逐次実行+サブエージェント |
Boltzmannソルバーのような密結合なパイプラインでは、宇宙初期の再結合(recombination)のモデル化における小さな近似誤差が、すべての下流計算に微妙なズレを生む。そのため、因果関係をチェーン全体に沿って遡るデバッグ能力が求められ、多数のエージェントを並列に投げるより、1つのエージェントが全体を把握しながら進める方が適している。
この事例が示しているのは、単に「AIが速い」ということではない。「専門外の領域に挑戦する壁が下がった」ということだ。
従来、科学者が専門外の領域に踏み込むには、膨大な学習時間と試行錯誤が必要だった。しかし今、高レベルの目標を明確にし、検証基準(テストオラクル)を用意すれば、あとはエージェントが自律的に進めてくれる。
重要なのは、人間の役割が「指示を出すこと」から「目標を設計し、正しさを判定すること」へと移行している点。研究のスピードだけでなく、研究者が挑戦できる領域そのものが広がっている。
もちろん万能ではない。密結合な逐次タスクにはまだ課題があるし、エージェントの判断が常に正しいわけではない。しかし、「非専門家が数ヶ月分の作業をエージェントに任せる」ことが現実になったという事実は、研究の進め方を根本から変える予兆だ。