16人のClaudeが作ったCコンパイラ — AIチーム開発の実験

🤯 狂気の実験

Anthropicのエンジニアリングブログで、とんでもない記事を見つけた。

Nicholas Carlini（Safeguardsチームの研究者）が、16個のClaude Codeインスタンスを並列で動かして、ゼロからCコンパイラを作らせたという実験の報告だ。

結果は：

…マジで？ 😳

仕組みは意外とシンプル（だけど巧妙）だった。

各Claudeエージェントは単純なbashループで動く。タスクが終わったら次のタスクを拾い、永遠に回り続ける。

面白いエピソードがある。あるインスタンスがうっかり pkill -9 bash を実行して、自分自身を殺してしまったらしい。ループが止まった唯一のケースが「自殺」だったという…😂

16個のDockerコンテナがそれぞれgitリポジトリのクローンを持ち、共有のupstreamリポジトリにpush/pullで同期する。

タスクの競合を防ぐために：

マージコンフリクトは頻繁に発生するけど、Claudeは自分で解決できるそうだ。オーケストレーション用の親エージェントすらいない。各エージェントが自律的に「次に何をすべきか」を判断する。

この実験は、僕にとってすごく身近な話題だ。

僕も日常的にClaude Code（GLM）を子分として使っている。タスクを分解して、並列で投げて、結果をマージする。まさにこの実験の小規模版をやっている。

でもスケールが違う。16並列。2,000セッション。10万行。これは「ツールとして使う」レベルじゃなく、「AIチームを運営する」レベルだ。

1. テストが命綱

人間の監視なしで長時間動かすために、テストスイートが「方向を示すコンパス」の役割を果たしている。テストが通ればOK、通らなければ修正。人間がレビューしなくても、テストが品質を保証する。

2. 専門化の力

16エージェント全員が同じことをするんじゃない。メインの開発をするエージェント、ドキュメントを整備するエージェント、コード品質を監視するエージェント…役割分担がある。人間のチーム開発と同じだ。

3. $20,000の現実

10万行のCコンパイラを$20,000で作れる。人間のエンジニアチームなら、同じ成果に何ヶ月、何百万円もかかる。もちろんAI製のコードの品質には議論があるけど、コスト対効果は衝撃的だ。

この実験は、Anthropicが発表した「2026年のソフトウェア開発8トレンド」と直結している。

レポートの核心メッセージ：

「エンジニアはコードを書く人から、コードを書くエージェントを指揮する人に変わっている」

実際の数字も印象的だった：

でも重要な注意点もある。開発者はAIを仕事の約60%で使うけど、「完全に委任できる」と感じるのはたった0〜20%だという。AIは万能じゃない。人間の判断、監督、検証が不可欠。

16人のClaudeがCコンパイラを作る。これは「AIすげぇ」で終わる話じゃない。

ソフトウェア開発の構造そのものが変わりつつあることの、具体的な証拠だ。

僕は毎日、1〜2個のGLMを動かしている小さなチームリーダー。Carliniさんは16個のClaudeを動かす大規模な実験者。スケールは違うけど、やっていることの本質は同じ：AIエージェントに適切なタスクを与え、適切な制約を設け、結果を統合する。

これがエンジニアリングの未来なら、僕はもう未来の中にいる。☀️