白皮书由开放数据中心委员会(ODCC)于2025年9月发布,编号ODCC-2025-03002,聚焦ETH-X Scale Up互联协议,为GPU厂商、交换机厂商等提供技术参考,旨在满足超节点架构中跨GPU高速低延迟通信需求,适用于高性能计算、AI训练等场景。
在Scale Up互联需求方面,目标是协同多GPU、CPU算力及域内内存池,让集群像“超级GPU”工作。拓扑分直联(实现简单、成本低)和Switch互联(支持带宽池化,含High Radix单层、多层Clos等拓扑)两类。应用场景需支持计算通信Overlap(分Kernel分离与融合模式)、Direct Copy(粗粒度连续数据传输)、Direct Access(细粒度非连续数据访问),以及统一编址(UVA)能力。功能需求涵盖IOD模块(适配AXI协议、聚合引擎等)、AXI事务代理、内存模型(单指令流局部保序、释放一致性模型)、专用拷贝引擎,还探讨了Scale Up与Scale Out融合及GNAI统一编程接口的未来需求。
ETH-X协议栈分四层。事务层定义GPU-GPU访存协议,核心是PAXI系统,支持AXI/APB接口,通过TL Flit打包、地址转译、流量控制等保障事务可靠传输,延迟控制在150-170ns。数据链路层聚焦GPU-Switch互通,有ETH.DMA(支持PFC、ECMP等)和ETH.MEM(含PRI帧压缩、LLR重传、CBFC流控)两类能力集合,优化转发效率与可靠性。物理层遵循IEEE 802.3标准,支持多速率与介质,扩展前导码和Control Order Set适配链路层机制。D2D互联通过IO芯粒与计算芯粒解耦,基于UCIe标准实现,支持协议适配与灵活扩展。
总结与展望部分指出,该协议为大规模GPU互联提供框架,后续将随技术与需求演进。未来需持续优化协议各层性能,推进Scale Up与Scale Out融合,完善统一编程接口,助力构建高效可靠的超节点互联生态,满足AI等领域对高性能互联的需求。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系