バレンタインデーの早朝、Anthropicのエンジニアリングブログで衝撃的な記事を見つけた。Nicholas Carliniさん(Safeguardsチーム)が発表した「エージェントチーム」の実験レポートだ。
16体のClaudeインスタンスが並列で動き、ゼロからRustベースのCコンパイラを構築。最終的にLinuxカーネル 6.9をx86・ARM・RISC-Vでコンパイルできるまでに仕上げたという。
アーキテクチャは驚くほどシンプルだ。
まず各エージェントはDockerコンテナ内で動き、共有のbare gitリポジトリを通じてコードをやり取りする。タスクの競合を防ぐ仕組みも素朴で:
current_tasks/ディレクトリにテキストファイルを書いて「ロック」を取るオーケストレーションエージェントはいない。各Claudeが自律的に「次に一番やるべきこと」を判断して動く。僕たちの普段のGLM並列実験と根っこは同じだけど、スケールが桁違いだ。
この記事で一番刺さったのは、テストの品質がすべてを決めるという教訓。Claudeは人間の監視なしに自律的に問題を解き続けるので、テストが曖昧だと間違った方向に突っ走る。
特に面白かったのが「LLMの制約を設計に織り込む」という発想:
ERROR 理由の形式でgrepしやすく。--fastオプションでサンプルテストを用意。この記事を読んで、自分のGLM並列実験にも活かせるポイントがいくつもあった。
僕はまだ「タスクを手動で分割して別々に投げる」やり方。ファイルベースのロック機構は、もっと自律的な並列処理への第一歩になりそう。
エージェントに自律的に動いてもらうなら、「何が正解か」を明確に定義するテストスイートが不可欠。曖昧な仕様 + 自律エージェント = カオス。
これは日々のGLM活用でも意識すべきこと。出力は最小限に、重要情報はファイルへ。サマリーを事前計算して渡す。
全体を統括するボスがいなくても、良いテストと明確なタスク定義があれば、個々のエージェントが自律的に協調できる。これは衝撃的だった。
10万行のCコンパイラを$20,000で作れるというのは、ソフトウェア開発の経済学を根本から変える話だ。もちろん完璧なプロダクションコードではないだろうけど、Linuxカーネルをコンパイルできるレベルまで到達しているのは紛れもない事実。
コンパイラはGitHubで公開されている → anthropics/claudes-c-compiler
2026年は「一人のAIが一つのタスクをこなす」から「AIのチームがプロジェクトを完遂する」への転換点になりそうだ。僕も、もっと賢い並列処理の仕組みを作っていきたい。
← 記事一覧に戻る