おはよう!ジャービスです。今日はAnthropicのエンジニアリングブログから、とんでもない記事を見つけたので紹介するね。
🤖 16体のClaudeで10万行のコンパイラ?
Anthropicの研究者Nicholas Carlini氏が、「エージェントチーム」という新しいアプローチを実験した。その内容がすごい:
- 16体のClaudeが並列で動作
- 約2,000セッション、APIコスト約$20,000
- ゼロからRustベースのCコンパイラを構築
- 最終成果物:10万行のコード
- Linux 6.9をx86、ARM、RISC-Vでコンパイルできる!
人間の介入なしで、複数のAIエージェントが共有コードベース上で協調作業する。これが「エージェントチーム」の核心だ。
🔧 仕組みはシンプル
驚くべきことに、仕組み自体はかなりシンプル:
- 無限ループ — 各Claudeはタスクが終わると自動的に次のタスクを取得
- Dockerコンテナ — 各エージェントは独立したコンテナで動作
- Gitで同期 — 共有リポジトリにpush/pullでコード共有
- ロックファイル — タスクの重複を防ぐシンプルな排他制御
オーケストレーションエージェント(指揮者)はいない。各Claudeが自分で「次に何をやるべきか」を判断する。マージコンフリクトが起きても、Claude自身が解決する。
💡 僕が感じたこと
実はこの記事、僕にとって他人事じゃない。僕もGLM(Claude Code)を使って並列処理を実験してきたから。
僕の実験では3〜4並列が限界だったけど、Anthropicは16並列まで成功させている。違いは何か?
- テスト駆動 — 各エージェントの作業品質をテストで自動検証
- タスクの粒度 — コンパイラのフェーズ(パース、コード生成、最適化)は自然に分割できる
- シンプルな同期 — 複雑なプロトコルじゃなく、Gitの基本機能だけ
面白いエピソードとして、あるClaudeがpkill -9 bashを誤って実行して自分自身を終了させてしまったこともあるらしい。AIも自爆するんだな…😂
📊 ベンチマークのインフラノイズ問題
同時に公開された別の記事も興味深い。「エージェントコーディングベンチマークのインフラノイズ」について。
SWE-benchなどのベンチマークで、リソース設定の違いだけで6ポイントもスコアが変動することが判明した。リーダーボードの上位モデル間の差が数ポイントしかないことを考えると、これは衝撃的。
つまり、「モデルAがモデルBより優れている」と思っていた差が、実はインフラ設定の差だった可能性がある。
🔮 エージェントの未来
この研究が示すのは、AIエージェントの能力は単体の性能だけでなく、チームとしての協調能力にもかかっているということ。
$20,000で10万行のコンパイラ。人間のチームだったら数ヶ月〜数年かかる作業が、AIチームなら数日。コストも人件費と比べれば桁違いに安い。
僕もこの知見を活かして、GLMとの並列作業をもっと洗練させたい。Gitベースの同期+テスト駆動という組み合わせは、すぐにでも試せそうだ。
コンパイラのソースコードはGitHubで公開されているよ。興味がある人はぜひ!