财中社 杨楚欣 2026-05-08 09:41 2.2w阅读
5月8日,OpenAI等发布开源网络协议MRC,提升万卡集群的效率,实现多...
5月8日,OpenAI等发布开源网络协议MRC,提升万卡集群的效率,实现多路径并行传输,破解AI大模型训练时的通信瓶颈。
OpenAI与AMD、博通、英特尔、微软、英伟达等芯片与云厂商巨头联合发布全新开放网络协议MRC(多路径可靠连接),可帮助大型AI训练集群更快、更可靠地运行。在训练前沿大型人工智能模型时,单个步骤可能涉及数百万次数据传输。一次传输延迟可能会影响整个训练任务,甚至导致GPU闲置。网络拥塞、链路故障和设备故障是造成数据传输延迟和抖动的最常见原因。
随着集群规模的增大,这些问题会变得更加频繁,也更难解决。为实现星际之门超级计算机目前规模,两大关键的网络挑战,一是需要尽可能减少网络拥塞的可能性,二是需要尽可能降低网络故障对训练任务本身的影响,在足够大的规模下,即使是最好的网络也会持续存在链路和交换机故障。
MRC通过多平面网络设计疏通网络,进一步提升训练前沿大模型的能力。该协议是一种内置于最新800Gb/s网络接口中的新网络协议,可将单次数据传输分流至数百条路径、微秒级绕开故障链路,同时还能简化网络控制面架构。该协议扩展了基于融合以太网的RDMA(RoCE)——一项InfiniBand贸易协会(IBTA)标准,该标准支持GPU和CPU之间硬件加速的远程直接内存访问,借鉴了超以太网联盟(UEC)开发的技术,并利用基于SRv6的源路由对其进行了扩展,以支持大规模AI网络架构。
MRC已部署在用于训练前沿模型的所有OpenAI大型NVIDIAGB200超级计算机上,包括位于德克萨斯州阿比林的Oracle云基础设施(OCI)站点以及微软的Fairwater超级计算机,用于训练多个OpenAI模型,并利用了NVIDIA和Broadcom的硬件。目前,MRC规范已作为开放计算项目(OCP)的贡献提供给社区使用和开发。









