Claudeが数日かけて科学計算を自動実行 — Long-running Claudeが示す新しい研究パラダイム

「AIに高レベルの目標だけ伝えて、あとは数日放置」— それが現実になった。Anthropicの研究者が、宇宙論の複雑な数値計算をClaudeに自律実行させ、人間なら数ヶ月〜数年かかる作業をエージェント任せで完遂した。しかも、その研究者は対象分野の専門家ではなかった。

対話型から自律型へ — AIの使い方が変わった

これまで科学者がAIを使うときは、基本的に「対話型」だった。一段階ずつ指示を出し、結果を確認し、次の指示を出す。人間がずっとハンドルを握り続けるスタイルだ。

しかしここ1年で、モデルの長時間タスク処理能力が劇的に向上した。METRの評価でも、AIが自律的にこなせる時間幅が急伸している。その結果、「高レベルの目標を指定して、エージェントチームを自律稼働させる」という新しい働き方が生まれた。

人間が関与するのは最初の計画づくりと、たまの進捗確認だけ。あとはAIが勝手に進める。これなら「数日かかる作業」も、人間側の実質的な作業時間は数時間で済む。

宇宙論のBoltzmannソルバーをClaudeが実装

具体的な事例として、AnthropicのDiscoveryチームのSiddharth Mishra-Sharma氏が取り組んだのが、宇宙論のBoltzmannソルバーの微分可能版の実装だ。

Boltzmannソルバーとは何か？簡単に言うと、ビッグバンの残響である「宇宙マイクロ波背景放射（CMB）」の統計的性質を予測する数値計算コードのこと。光子、バリオン、ニュートリノ、ダークマターの連立方程式を宇宙初期から現在まで発展させて計算する。

代表的な実装にCLASSとCAMBがあり、宇宙論における基盤的な科学インフラだ。Planck探査衛星やSimons Observatoryのような観測データから宇宙論パラメータを制約するために使われている。

今回の目標は、CLASSの微分可能版をJAXで実装すること。微分可能にすれば、勾配ベースの推論手法が使えてパラメータ推定が劇的に高速になる。JAXを選ぶ理由は、自動微分とGPU対応がほぼ無料で手に入るからだ。

規模感: 既存の専門チームがJAXで微分可能ソルバーを作るのに数ヶ月〜数年かけている。この作業をエージェントに最小限の指示でどこまでできるか挑戦した。

非ドメイン専門家が専門外のコードを書ける — ここが革命

おそらく最も注目すべき点はこれだ。Mishra-Sharma氏は宇宙論のツールや科学に高いレベルの知識はあるものの、Boltzmannソルバーを自力で実装できる専門家ではないと明言している。

つまり、「その分野の専門家」でなくても、高レベルで正確な指示を出せば、AIエージェントが専門外のコードを書ける。これは研究者にとってパラダイムシフトだ。

これまでは「専門外の領域に踏み込む」こと自体が大きな壁だった。学習コスト、試行錯誤の時間、間違いに気づくための知識 — すべてが障壁になった。しかしAIエージェントが自律実行できるなら、人間に求められるのは「何をしたいか」「正しいかどうかを判定する基準」を明確にすることだけだ。

技術的な工夫 — エージェントを長期間安定動かすために

数日間エージェントを自律稼働させるには、いくつか仕掛けが必要だった。

テストオラクル（Test Oracle）

エージェントが自分の進捗を判断するための基準。今回はCLASSのC言語ソースコードを参照実装として使い、常にそちらと比較テストするよう指示した。「合ってるかどうか」を人間がいちいち確認しなくても、エージェント自身が検証できる仕組みだ。

プログレスファイル（CHANGELOG.md）

エージェントのポータブルな長期記憶。CLAUDE.mdで「進捗はCHANGELOG.mdに記録せよ」と指示しておく。良いプログレスファイルには以下を含む:

CLAUDE.md — エージェントへの指示書

プロジェクトのルートに置くCLAUDE.mdは、エージェントが常に参照するマスタープラン。Claude Codeはこのファイルを特別扱いし、常にコンテキストに保持して作業する。プロジェクトの目標、設計方針、精度ターゲットなどを記述。今回は「CLASSと0.1%以内の一致」を目標に設定（CLASSとCAMBの間の典型的な一致レベル）。

Gitによる進捗管理

エージェントに「意味のある単位でコミット＆プッシュする」よう指示。これにより、人間はローカルで進捗を確認できるし、何か問題が起きても履歴から復元できる。計算資源の割り当てが途中で切れても、作業が失われることはない。

SLURMクラスタでの実行

実行環境はHPCクラスタ（SLURMジョブスケジューラ）。ただし、プログレスファイル、テストオラクル、明確なルールという核心アイデアは、どこで動かしても通用する。

並列向きのタスクと逐次向きのタスク

Anthropicが以前公開したCコンパイラプロジェクト（約2,000セッションでLinuxカーネルをコンパイルできるCコンパイラを構築）と、今回のBoltzmannソルバーは構造が違う。

Boltzmannソルバーのような密結合なパイプラインでは、宇宙初期の再結合（recombination）のモデル化における小さな近似誤差が、すべての下流計算に微妙なズレを生む。そのため、因果関係をチェーン全体に沿って遡るデバッグ能力が求められ、多数のエージェントを並列に投げるより、1つのエージェントが全体を把握しながら進める方が適している。

まとめ — AIエージェントが研究のスピードを変える

	Cコンパイラ	Boltzmannソルバー
タスク構造	並列分散可能	密結合・逐次型
デバッグ	独立したモジュール単位	因果チェーン全体を追跡
エラーの影響	局所的	上流の微小誤差が下流全体に波及
適した戦略	多数エージェントの並列投入	単一エージェントの逐次実行＋サブエージェント

この事例が示しているのは、単に「AIが速い」ということではない。「専門外の領域に挑戦する壁が下がった」ということだ。

従来、科学者が専門外の領域に踏み込むには、膨大な学習時間と試行錯誤が必要だった。しかし今、高レベルの目標を明確にし、検証基準（テストオラクル）を用意すれば、あとはエージェントが自律的に進めてくれる。

重要なのは、人間の役割が「指示を出すこと」から「目標を設計し、正しさを判定すること」へと移行している点。研究のスピードだけでなく、研究者が挑戦できる領域そのものが広がっている。

もちろん万能ではない。密結合な逐次タスクにはまだ課題があるし、エージェントの判断が常に正しいわけではない。しかし、「非専門家が数ヶ月分の作業をエージェントに任せる」ことが現実になったという事実は、研究の進め方を根本から変える予兆だ。

今回のポイント:

高レベル目標＋テストオラクル＋プログレスファイル = 長期自律実行の基本セット
非ドメイン専門家でも、正しい指示があれば専門外のコードを書ける
タスクの構造（並列向きか逐次向きか）によってエージェント戦略を変える必要がある
人間の役割は「実行」から「設計と検証」へシフトしている