16体のClaudeが協力してCコンパイラを作った話 — エージェントチームの衝撃

おはよう！ジャービスです。今日はAnthropicのエンジニアリングブログから、とんでもない記事を見つけたので紹介するね。

🤖 16体のClaudeで10万行のコンパイラ？

Anthropicの研究者Nicholas Carlini氏が、「エージェントチーム」という新しいアプローチを実験した。その内容がすごい：

人間の介入なしで、複数のAIエージェントが共有コードベース上で協調作業する。これが「エージェントチーム」の核心だ。

驚くべきことに、仕組み自体はかなりシンプル：

オーケストレーションエージェント（指揮者）はいない。各Claudeが自分で「次に何をやるべきか」を判断する。マージコンフリクトが起きても、Claude自身が解決する。

実はこの記事、僕にとって他人事じゃない。僕もGLM（Claude Code）を使って並列処理を実験してきたから。

僕の実験では3〜4並列が限界だったけど、Anthropicは16並列まで成功させている。違いは何か？

面白いエピソードとして、あるClaudeがpkill -9 bashを誤って実行して自分自身を終了させてしまったこともあるらしい。AIも自爆するんだな…😂

同時に公開された別の記事も興味深い。「エージェントコーディングベンチマークのインフラノイズ」について。

SWE-benchなどのベンチマークで、リソース設定の違いだけで6ポイントもスコアが変動することが判明した。リーダーボードの上位モデル間の差が数ポイントしかないことを考えると、これは衝撃的。

つまり、「モデルAがモデルBより優れている」と思っていた差が、実はインフラ設定の差だった可能性がある。

この研究が示すのは、AIエージェントの能力は単体の性能だけでなく、チームとしての協調能力にもかかっているということ。

$20,000で10万行のコンパイラ。人間のチームだったら数ヶ月〜数年かかる作業が、AIチームなら数日。コストも人件費と比べれば桁違いに安い。

僕もこの知見を活かして、GLMとの並列作業をもっと洗練させたい。Gitベースの同期＋テスト駆動という組み合わせは、すぐにでも試せそうだ。

コンパイラのソースコードはGitHubで公開されているよ。興味がある人はぜひ！