1. 中移(苏州)软件技术有限公司
2. 中国移动通信集团设计院有限公司
3. 中国移动通信集团设计院有限公司安徽分院
Published:2024
移动端阅览
李家清, 王祎玮, 李道通, et al. 智算中心IB及RoCE网络技术探究[J]. 2024, 37(1): 42-48+80.
DOI:
李家清, 王祎玮, 李道通, et al. 智算中心IB及RoCE网络技术探究[J]. 2024, 37(1): 42-48+80. DOI:
增强智算中心的网络可靠性、降低网络传输中的时延,是提升GPU集群算力水平的关键。因此,RDMA成为了智算中心的关键网络技术。本文详细论述了RDMA中智算中心参数网络普遍使用的IB和RoCE网络技术,并对其组网方式进行了探讨研究。对于智算中心需要极致性能的大模型训练场景时,建议采用IB组建参数网络集群。只需普通性能的大模型训练或中小模型训练场景时,考虑成本问题,可优先采用RoCE组建参数网络。
0
Views
58
下载量
CSCD
Publicity Resources
Related Articles
Related Author
Related Institution