这份《开放解构超节点(ODS)系统架构技术白皮书(1.0 版)》由中国移动联合英特尔、博通等多家企业编制,聚焦 MoE 大模型发展对 AI 基础设施的高带宽、低延迟需求,针对当前超节点技术面临的硬件异构、厂商锁定、适配成本高、扩展灵活性不足、交付运维不便等行业痛点,提出了开放解构的超节点架构解决方案,明确了 ODS 的设计理念、系统架构及全链路技术规范,为下一代大模型基础设施建设提供标准化参考。
白皮书确立了 ODS 五大核心设计原则,即网络协议完全开放、硬件架构全面解构、系统规模弹性扩展、散热方案灵活配置、互联效率全面优化,以此打破厂商绑定,提升系统兼容性与部署灵活性。在系统架构上,ODS 分为基础型和级联型两类,基础型采用单级交换架构,一级交换全对等互连形成高带宽域,最大支持 256 卡(液冷)和 128 卡(风冷)规模;级联型引入第二级互联层,推荐采用 OCS 光电路交换机减少光电转换,最大可支持 16384 卡集群,可灵活适配不同规模的模型训练与推理需求。
白皮书还对 ODS 各核心组件制定了详细设计规范,计算节点分风冷、液冷型,明确了 GPU 选型、单板设计、电源、信号完整性及散热要求;交换节点同样涵盖风冷与液冷方案,规定了交换芯片选型、接口规格、内部布局等标准;互联方案遵循 “铜缆优先” 原则,推荐 AEC 铜缆用于计算与交换节点互联,光互联方案(FRO/LPO/LRO/CPO)则适用于交换节点间长距离互联,并分析了各方案的优劣势与适用场景。
此外,白皮书还明确了 ODS 的软件栈分层解耦架构,以及机柜尺寸、供电、布线、散热等基础设施要求,提出机柜统一管理方案,实现资产统计、故障诊断、电源控制等功能。整体而言,该白皮书通过标准化、模块化的设计思路,构建了具备互操作性与可持续演进能力的超节点技术体系,旨在降低超节点部署成本与运维复杂度,推动 AI 基础设施产业的健康可持续发展。
下一篇:“京圈顶级富二代”,塌房了