西部证券：OpenAI联合巨头发布MRC协议，破解万卡集群通信瓶颈

财中社杨楚欣 2026-05-08 09:41 2.2w阅读

5月8日，OpenAI等发布开源网络协议MRC，提升万卡集群的效率，实现多...

5月8日，OpenAI等发布开源网络协议MRC，提升万卡集群的效率，实现多路径并行传输，破解AI大模型训练时的通信瓶颈。

OpenAI与AMD、博通、英特尔、微软、英伟达等芯片与云厂商巨头联合发布全新开放网络协议MRC（多路径可靠连接），可帮助大型AI训练集群更快、更可靠地运行。在训练前沿大型人工智能模型时，单个步骤可能涉及数百万次数据传输。一次传输延迟可能会影响整个训练任务，甚至导致GPU闲置。网络拥塞、链路故障和设备故障是造成数据传输延迟和抖动的最常见原因。

随着集群规模的增大，这些问题会变得更加频繁，也更难解决。为实现星际之门超级计算机目前规模，两大关键的网络挑战，一是需要尽可能减少网络拥塞的可能性，二是需要尽可能降低网络故障对训练任务本身的影响，在足够大的规模下，即使是最好的网络也会持续存在链路和交换机故障。

MRC通过多平面网络设计疏通网络，进一步提升训练前沿大模型的能力。该协议是一种内置于最新800Gb/s网络接口中的新网络协议，可将单次数据传输分流至数百条路径、微秒级绕开故障链路，同时还能简化网络控制面架构。该协议扩展了基于融合以太网的RDMA（RoCE）——一项InfiniBand贸易协会（IBTA）标准，该标准支持GPU和CPU之间硬件加速的远程直接内存访问，借鉴了超以太网联盟（UEC）开发的技术，并利用基于SRv6的源路由对其进行了扩展，以支持大规模AI网络架构。

MRC已部署在用于训练前沿模型的所有OpenAI大型NVIDIAGB200超级计算机上，包括位于德克萨斯州阿比林的Oracle云基础设施(OCI)站点以及微软的Fairwater超级计算机，用于训练多个OpenAI模型，并利用了NVIDIA和Broadcom的硬件。目前，MRC规范已作为开放计算项目(OCP)的贡献提供给社区使用和开发。

重要提示： 本文著作权归财中社所有。未经允许，任何单位或个人不得在任何公开传播平台上使用本文内容；经允许进行转载或引用时，请注明来源。联系请发邮件至editor@caizhongshe.cn。

长按保存图片

信达证券：2026年五一假期出游人次增速放缓免税与入境游成亮点

财中社 05-08

国联民生证券：豆包推出68-500元分层付费订阅，Token经济学时代正式开启

财中社 05-07

国信证券：特斯拉人形机器人V3年中发布，FSD订阅量同比增51%

财中社 05-07

长江证券：快递一季报反内卷成效显著，份额集中、单票盈利改善

财中社 05-07

长江证券：数字中国峰会定调AI为核心引擎，数据要素价值加速释放

财中社 05-07

24小时热门文章

中慧生物-B获批mRNARSV疫苗IND申请

财中社 05-08

浪潮信息：金冉当选职工代表董事

财中社 05-08

编造重大虚假内容元道通信被实施退市风险警示 5月12日起变身“*ST元道”

财中社 05-08

梦洁股份：股东李建伟已减持237万股，持股降至5%以下

财中社 05-08

山外山原董事刘运君操作失误“多卖1股”，已减持321万股套现达5378万元

财中社 05-08

搜索历史清空