InfiniBand(インフィニバンド)とは、データセンターにおけるサーバー間・ノード間の高速ネットワーク接続技術です。AI分野では、分散学習において複数のサーバー(ノード)に搭載されたGPU間でパラメータや勾配データを高速に転送するために広く使用されています。
InfiniBandの性能
InfiniBandの最新世代であるNDR(Next Data Rate)は400Gb/s(約50GB/s)のポートあたり帯域幅を提供し、XDR(eXtreme Data Rate)では800Gb/sに到達します。RDMA(Remote Direct Memory Access)技術により、CPU介在なしにリモートメモリへ直接アクセスでき、低レイテンシと高スループットを両立します。
AI学習における役割
大規模なAIモデルの分散学習では、数百から数千のGPUを使用し、各GPUで計算した勾配を集約(AllReduce)する必要があります。この通信にかかる時間が学習全体のボトルネックとなるため、InfiniBandの高帯域・低レイテンシがスケーラビリティの確保に不可欠です。
Ethernetとの比較
従来のEthernetも400GbEや800GbEへ進化していますが、RDMAサポートやレイテンシの面でInfiniBandが優位です。一方、NVIDIA(旧Mellanox)がInfiniBand技術を独占的に供給していることから、Ethernetベースの代替(RoCEv2、Ultra Ethernetなど)を推進する動きもあり、ネットワーク技術の競争が激化しています。