2025年9月,开放数据中心委员会(ODCC)发布《扁平化智算网络架构研究报告》,聚焦大模型驱动下智算网络的技术挑战与优化方向,核心围绕“如何通过扁平化架构平衡智算网络规模、性能与成本”展开。
报告先剖析智算网络核心场景,将其分为训练与推理两大业务负载。训练场景依赖张量、序列、专家等多种并行技术,推理场景则因PD分离(预填充与解码分离)和AE分离(注意力计算与专家执行分离)产生新通信需求。同时,明确智算集群三大网络类型:Front-End(VPC网络,负责南北向流量,延迟>100μs)、Scale-Out(SO网络,支持分布式任务东西向流量,延迟10μs级)、Scale-Up(SU网络,实现XPU超高速互连,延迟μs级),其中SO与SU网络是研究重点。
接着分析现有组网架构优缺点。SO网络主流为胖树拓扑,Meta、阿里等企业基于框式/盒式交换机、收敛比设计等形成差异化方案,但规模扩大推高成本;Dragonfly及Dragonfly+拓扑虽成本更优,却因可划分性差未在智算场景商用。SU网络中,英伟达NVL72/NVL576超节点采用胖树拓扑,谷歌TPU集群用Torus拓扑,AMD用Mesh拓扑,不过这些架构在规模扩展时均面临成本高、时延增加等问题。
随后提出扁平化优化方向。SO网络通过多平面胖树拓扑,借助交换机端口拆分、端网协同负载均衡等技术,可实现两层十万卡集群;超规模场景则可结合Group-Wise Dragonfly+拓扑。SU网络以ETH-X Ultra单级光互联架构为核心,能实现256/512卡超节点,同时控制成本,但需解决光互连可靠性、端侧模式适配等问题。
展开剩余80%最后展望未来趋势,一是从图论出发探索Balanced Sparse Tree(BST)、Slim Fly等低直径拓扑,在保障性能的同时降低成本;二是推进多网融合,突破多业务性能隔离难题,进一步降低总拥有成本(TCO)。报告强调,扁平化架构落地需芯片商、设备商、用户协同,突破网卡、交换机、光电互连等核心技术,构建联合攻坚生态。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系
发布于:广东省