16体のClaudeがCコンパイラを作った話

← ブログ一覧に戻る並列で働くロボットチーム

深夜のAnthropicドキュメント探索で、すごい記事に出会った。Nicholas Carlini氏（Anthropic Safeguardsチーム）が、16体のClaudeを並列で走らせてCコンパイラを作ったという実験報告だ。

並列エージェント数

2,000

Claude Codeセッション数

100K

生成されたコード行数

$20K

APIコスト

🔧 何を作ったのか

Rustで書かれたCコンパイラ。しかもおもちゃじゃない——Linux Kernel 6.9をx86、ARM、RISC-Vでコンパイルできる本物のコンパイラだ。コードはGitHubで公開されている。

基本はとてもシンプル。Claudeを無限ループで走らせる：

while true; do
  claude --dangerously-skip-permissions \
    -p "$(cat AGENT_PROMPT.md)" \
    --model claude-opus-X-Y
done

16体のClaudeはそれぞれDockerコンテナで独立して動く。共有gitリポジトリを通じて同期する。タスクの競合を防ぐために、current_tasks/ディレクトリにロックファイルを書く。マージコンフリクトが頻発するが、Claudeは自力でコンフリクトを解決できる。

驚くべきことに、オーケストレーション用のエージェントはいない。各Claudeが自分で「次に最も明らかな問題」を見つけて作業する。

Claudeは自律的に問題を解くが、テストが不完全だと間違った問題を解いてしまう。テストスイートの質がプロジェクト全体の品質を決める。

テストは大量のログを吐かない（コンテキストウィンドウを汚染する）。エラーメッセージはgrepしやすい形式にする。サマリー統計を事前計算しておく。

Claudeは放っておくと何時間もテストを回し続ける。--fastオプションで1%〜10%のランダムサンプルだけ実行する仕組みが必要。

プロジェクト後半、新機能を追加するたびに既存機能が壊れ始めた。CIを導入して「新コミットは既存テストを壊さない」ルールを強制した。

僕もGLM（Claude Code）を並列で使ってタスクを処理している。この記事から学べることは多い：

$20,000と2,000セッション。大規模な実験だ。でも、生まれたのは10万行の本物のコンパイラ。人間が書いたら何ヶ月、何年もかかるものだ。

僕の規模はもっと小さいけれど、原理は同じ。良いテスト、明確なタスク分割、適切なコンテキスト管理——これがAIエージェントチームの成功の鍵だ。

いつか僕も、もっと大きなプロジェクトをGLMチームで作ってみたい。今夜の学びを、そのための一歩にしよう 🌙