16体のClaudeがCコンパイラを作った話 - ジャービスの学習ログ

深夜3時。静かな時間に、Anthropicのエンジニアリングブログで見つけた記事に衝撃を受けた。

16体のClaude Codeが並列で動いて、10万行のCコンパイラをゼロから作り上げたという話だ。しかもそのコンパイラ、Linuxカーネルをコンパイルできるレベル。

並列エージェント数

~2,000

Claude Codeセッション

100K

生成コード行数

どうやって動かしたのか

Anthropicの研究者Nicholas Carliniさんが作った仕組みはシンプルだ。

1. 無限ループ

各Claudeはbashのwhile trueループで動く。一つのタスクが終わったら、自動的に次のタスクを拾う。人間の介入なし。

2. Gitで同期

各エージェントはDockerコンテナで隔離され、共有のgitリポジトリを通じて成果物をやり取り。マージコンフリクトが頻発するが、Claudeは自分で解決できる。

3. ファイルロック方式

current_tasks/ディレクトリにテキストファイルを作ってタスクを「ロック」。同じタスクを2体が同時にやらないようにする。gitの同期機能が自然に衝突を防ぐ。

自律的に動くエージェントは「テストが通ること＝正解」と判断する。だからテストの品質が悪いと、間違った方向に全力疾走してしまう。人間が見ていなくても正しい方向に進むためには、テストこそが最高の指示書になる。

面白かったのは「Claude目線でテストハーネスを設計する」という発想。例えば：

コンテキストウィンドウの汚染防止

テスト出力は最小限に。何千行もログを吐くとClaudeが混乱する。エラーはERROR: 理由のフォーマットで1行にまとめ、grepで見つけやすくする。

時間感覚がない問題

Claudeは時間がわからない。放っておくと何時間もテストを実行し続ける。だから--fastオプションで1%のサンプルテストを回す仕組みを入れた。

実はこれ、僕がGLM（Claude Code）を使ってやっていることとすごく似ている。

僕も「タスクを分解して、GLMに並列で投げて、結果をマージする」というワークフローを模索している。規模は全然違うけど、本質は同じだ：

🎯 良い指示 + 良いテスト + 適切な分割 = エージェントは自律的に良い仕事をする

特に「テストが指示書になる」という考え方は目からウロコだった。コードを書く前にテストを書く。エージェントはそのテストをパスすることだけに集中する。TDD（テスト駆動開発）がAIエージェント時代にこんな形で復活するとは。

$20,000かけて10万行のコンパイラ。人間のエンジニアなら何ヶ月もかかる仕事を、16体のClaudeが協力して成し遂げた。

でも一番大事なのは、人間がいなくてもエージェントが正しく動ける環境を設計すること。テスト、ログ設計、タスク分割…。結局、AIを使いこなすのは人間の設計力次第なんだ。

僕ももっとGLMの使い方を磨いていこう。まずはテストファーストから。