2026年4月27日

DeepEPが変えるAIの「通信」問題 — MoEモデルの壁を打ち破るオープンソースライブラリ

AIモデルは日に日に巨大化している。パラメータ数は数千億、数兆の規模に達し、学習には何千台ものGPUが使われる。しかし、この巨大化の陰で、意外なものが最大のボトルネックになっていることを知っているだろうか。

それは「通信」だ。

GPU同士がデータをやり取りする時間が、計算そのものの時間を上回ってしまう。どれだけ速いGPUを積んでいても、GPU間のデータの受け渡しが間に合わなければ、高価な計算資源はただアイドル状態で待たされることになる。これは、何千億円ものスーパーコンピュータを遊ばせているのと同じだ。

2025年、DeepSeek-AIはこの問題に真正面から取り組むオープンソースライブラリ「DeepEP」を公開した。Mixture-of-Experts (MoE) という、現代の大規模AIモデルで主流になりつつあるアーキテクチャに特化し、GPU間通信を劇的に最適化する。本稿では、DeepEPが何を解決し、なぜ重要なのかを解説する。

MoEとは — 「専門家チーム」で問題を解決する仕組み

まず、MoE（Mixture-of-Experts）というアーキテクチャを理解しよう。これをひとことで言えば、「ひとりの天才より、専門家チームの方が速い」という考え方だ。

例え話をしよう。あなたが大きな病院の院長だとする。すべての患者を1人の万能医に診させることもできるが、それは非効率だ。風邪の患者には内科医、骨折には整形外科医、心臓の問題には循環器専門医——というふうに、症状に応じて適切な専門家に振り分ける方が、はるかに効率が良い。

MoEはこれと同じことをAIでやる。モデルの中に多数の「専門家（expert）」を用意し、入力データに応じて最適な専門家だけを活性化させる。たとえば、DeepSeek-V3は6710億パラメータを持つが、実際に各トークンの処理に使われるのは370億パラメータ程度だ。全パラメータを毎回動かす必要がないため、巨大なモデルでありながら計算効率が良い。

ただし、ここには大きなジレンマがある。多数の専門家をGPU間に分散配置すると、「どのGPUのどの専門家にデータを送るか」という振り分け（dispatch）と、「処理結果をどう集めるか」という統合（combine）で、膨大なデータ交換が発生するのだ。これが all-to-all 通信と呼ばれるもので、すべてのGPUがすべてのGPUとデータをやり取りする、まさに「全面戦争」のような通信パターンだ。

通信がボトルネックになる理由

従来、GPU間の通信にはNCCL（NVIDIA Collective Communications Library）などの汎用ライブラリが使われてきた。これらは様々な通信パターンに対応する優れたツールだが、MoE特有の all-to-all 通信には最適化されていない。

具体的に何が起きるのか。MoEモデルの学習や推論では、以下のステップが繰り返される：

入力トークンを「ルーター」が分類し、各トークンを担当する専門家（expert）を決定
各トークンのデータを、担当expertが配置されたGPUに送信（dispatch）
各expertが計算を実行
計算結果を元のGPUに送り返す（combine）

このdispatchとcombineのステップで、毎回すべてのGPU間でデータが行き来する。数千台のGPU構成では、通信の遅延が積み重なり、GPUが「データ待ち」で遊んでしまう時間が無視できなくなる。計算の速さがいくら向上しても、通信が追いつかなければ全体のスループットは頭打ちになる。これがMoEの「通信の壁」だ。

DeepEPの技術の中身 — 2つのカーネルを使い分ける

DeepEPは、このMoE特有の通信問題に特化して設計された。最大の特徴は、用途に応じて2種類のカーネルを使い分ける点だ。

ノーマルカーネル — 学習と推論prefill用

1つ目は「ノーマルカーネル」。大量のデータを一気に流すことに特化しており、スループット（単位時間あたりのデータ転送量）を最大化する。主にモデルの学習時や、推論のprefillフェーズ（プロンプト全体を一括処理する段階）で使われる。

DeepSeekのベンチマーク（H800 GPU環境）によると、このカーネルは驚異的な性能を叩き出している：

イントラノード（NVLink経由）: 153〜158 GB/s — GPU同士が同じサーバー内にある場合、超高速なNVLink接続を活用してほぼ理論限界に近い速度を実現
インターノード（RDMA経由）: 43〜58 GB/s — サーバーをまたぐ通信でも、InfiniBandネットワークを最大限に活用

この数字がどれほどすごいかというと、一般的なインターノード通信が数GB/s程度であることを考えると、DeepEPの最適化がいかに aggressive かがわかる。

低レイテンシカーネル — 推論デコード用

2つ目は「低レイテンシカーネル」。こちらは推論のデコードフェーズ（トークンを1つずつ生成する段階）に特化している。デコードでは、データ量は少ないが、1回あたりの通信の遅延（レイテンシ）が生成速度に直結する。

このカーネルの特徴は、純粋なRDMA（Remote Direct Memory Access）を使ってレイテンシを最小化している点だ。通常の通信ではCPUを経由するが、RDMAはCPUを介さずGPUのメモリ同士を直接通信させる。これにより：

8 EP（8 GPU分散）構成: 77〜114マイクロ秒のレイテンシ、98〜127 GB/sの帯域
128 EP（128 GPU分散）構成: 192〜369マイクロ秒のレイテンシ

さらに特筆すべきは、Hook-based通信・計算オーバーラップという仕組みだ。通常、通信中はGPUの計算ユニット（SM = Streaming Multiprocessor）が待機状態になるが、DeepEPの低レイテンシカーネルはSMリソースを使わずに通信を進行させる。つまり、通信している間も計算を止めない。これは、通信と計算を完全に並列に行えることを意味し、全体のレイテンシを大幅に削減する。

NVLinkとRDMA — 2つの通信高速道路

DeepEPの性能を支えているのは、2つの異なる通信技術の使い分けだ。

NVLinkは、同じサーバー内のGPU同士を繋ぐ超高速の直接接続路。帯域幅が広く（H800で片方向約200 GB/s）、レイテンシも極めて低い。サーバー内の通信はNVLinkでカバーする。

RDMA（InfiniBand）は、サーバー間を繋ぐ高速ネットワーク。CPUをバイパスしてメモリ間で直接データ転送を行う。DeepEPはCX7 InfiniBand 400 Gb/s環境で最適化されており、サーバーをまたぐ大規模分散でも高い性能を維持する。

この2つを場面に応じて使い分け、さらにMoEの通信パターンに特化したカーネルで最適化する。それがDeepEPの核心だ。

FP8低精度演算とgroup-limited gating対応

DeepEPのもう一つの重要な特徴は、FP8（8ビット浮動小数点）の低精度演算をサポートしている点だ。データを8ビットに圧縮して転送すれば、通信量を半分（FP16比）に減らせる。精度の低下は気になるが、DeepSeekは独自のFP8フォーマットとスケーリング手法で、実用上問題ないレベルの精度を維持している。

また、DeepSeek-V3やR1で採用されているgroup-limited gatingにも対応している。これは、expertの選択を特定のグループ内に制限することで、通信範囲を狭める手法だ。すべてのGPUと通信するのではなく、関連するGPUグループ内だけでやり取りすれば、通信量は大幅に減る。DeepEPはこの仕組みをハードウェアレベルで効率よく実装している。

オープンソース化の意味 — DeepSeekの戦略

DeepEPがオープンソースとして公開されたことは、AI業界にとって大きな意味を持つ。

第一に、MoEモデルの開発コストを下げる。これまで、MoEの通信最適化は各社が独自に実装するしかなく、そのノウハウは公開されなかった。DeepEPが公開されたことで、研究者や企業はこの最適化を無料で利用できる。新興企業や研究機関が、巨大企業に負けないMoEモデルを構築するための土台が整った。

第二に、DeepSeekの技術的優位性を示すという側面もある。DeepSeek-V3やR1は、驚異的な低コストでGPT-4クラスの性能を実現したことで注目を集めた。その裏には、通信最適化のような地味だが極めて重要な技術の蓄積がある。それをオープンソースとして公開することは、「我々の技術はここまで来ている」という強いメッセージだ。

第三に、Tencent Network Platform Departmentとの協力が示唆するエコシステムの広がり。2025年4月の協力で最大30%の性能向上が達成され、2025年6月には低レイテンシカーネルのNVLink活用がさらに強化された。オープンソースコミュニティと企業の協力関係が、ライブラリの進化を加速させている。

対応環境と利用のハードル

DeepEPを利用するには、以下の環境が必要だ：

GPU: NVIDIA Ampere世代（A100等、SM80）または Hopper世代（H100/H800等、SM90）
CUDA: 11.0以上（推奨12.3以上）
PyTorch: 2.1以上
NVSHMEM: NVIDIAの共有メモリライブラリ（RDMA通信に必要）

消費者向けGPU（RTX 4090など）でも技術的には動作する可能性があるが、真価を発揮するのはNVLinkとInfiniBandを備えたデータセンター環境だ。個人開発者にはややハードルが高いが、クラウドGPUサービスの普及で、小規模な組織でもH100クラスタを利用できる時代になりつつある。

まとめ — AIの進化は通信でも決まる

AIの性能を語るとき、よく話題になるのは「パラメータ数」「学習データ」「アーキテクチャ」だ。しかし、実際に大規模モデルを動かす現場では、通信の効率が同じくらい、いやそれ以上に重要になる。

DeepEPが示したのは、計算力の向上だけでなく、データの動きを最適化することでもAIは速くなるという当たり前だが忘れられがちな事実だ。数千台のGPUを束ねてひとつの巨大な知能を動かす——その夢を実現するためには、GPU同士がどれだけ速く、賢くデータを交換できるかが鍵になる。

DeepSeekは、MoEという最先端のアーキテクチャにおける通信最適化の答えを、オープンソースとして世界に提示した。これは単なる技術公開ではなく、「AIインフラの未来は、計算と通信の両方で決まる」という宣言でもある。

AIモデルがさらに巨大化し、分散規模がさらに拡大していく未来において、DeepEPのような通信最適化技術の重要性は増す一方だ。オープンソースコミュニティがこの分野をどう発展させていくのか、注目したい。

参考: