在人工智能时代,延迟是数据中心网络的一个日益关键的指标。对于AI训练而言,低延迟有助于确保训练集群中的所有图形处理单元(GPU)和节点得到有效利用,最大限度地减少空闲时间并最大化整体训练效率。对于需要实时或接近实时响应的AI推理来说,低延迟更为关键。
随着GPU集群扩展到数百、数千甚至数百万个GPU,功耗、空间和可用性限制迫使AI集群分布在多个城域和区域数据中心。"跨规模"一词现已进入词汇表,用来描述数据中心之间的AI网络连接;然而,这些数据中心的位置以及它们之间的距离受到延迟的限制。
光纤与延迟
数据中心延迟的一个关键组成部分是光通过光纤电缆传输所需的时间。随着城域、区域、长途和海底网络距离的增加,这逐渐成为主导因素,网络设备中的延迟变得微不足道。因此,光纤延迟是距离和每公里光纤延迟的函数。销售数据中心互连服务(如波长服务、暗光纤和托管光纤网络)的网络运营商通过拥有最短的光纤路由来区别于竞争对手。
每公里光纤延迟是光纤折射率的函数。今天的光纤最初在1960年代推出,迄今已部署超过70亿公里。虽然它们在低损耗和更好性能方面持续发展,但都具有二氧化硅纤芯。二氧化硅纤芯光纤(SCF)的折射率约为1.5,这意味着光速比真空中的光慢约30%。
空芯光纤改变游戏规则
空芯光纤(HCF)是一种具有根本不同架构的新方法。顾名思义,纤芯是中空的,充满空气或更典型的气体。因此其折射率约为1,意味着光传输速度比SCF快50%,延迟减少约30%。对于AI跨规模应用,这将数据中心之间的最大距离增加50%,数据中心占地面积增加125%。这为运营商提供了更多灵活性,可以将数据中心设置在房地产成本较低且能获得重要电力和冷却水资源的区域。
更低功耗
人工智能时代另一个备受关注的指标是功耗。除了使数据中心能够更靠近低成本电源外,HCF还能显著降低光网络功耗。其中一种方式是通过更低的损耗。SCF中的光损耗已稳定在约0.14 dB/km。最先进的HCF显示最小损耗约为0.05 dB/km,研究人员正努力实现更低的损耗。更低的损耗减少了对高耗电光放大的需求。较短距离的数据中心互连应用可能不再需要光放大;中等距离的DCI可能不再需要数据中心之间的光放大;更长距离的DCI可能需要更少、间隔更大的在线放大器站点。HCF还受益于低色散和非线性损伤。长期来看,这可能意味着更简单、因此功耗更低的相干光引擎。低损耗也可能转化为数据中心内部HCF应用的更低功耗。
制造和成本挑战依然存在
除了低延迟和降低功耗外,HCF还有潜力通过更宽的频谱和改善的波长频谱效率来增加光纤容量。然而,在HCF能够在商业环境中广泛部署之前,仍有重大挑战需要解决。这些挑战包括成本、可制造性、供应商多样性,以及与测试、熔接、连接器、维修和与SCF耦合相关的操作因素。
数据中心应用采用
尽管存在挑战,但在最近光学行业会议上的公告表明,在这些领域都取得了很大进展。几家主要云服务提供商和HCF供应商已宣布部署和合作伙伴关系以扩大制造规模。这些初期部署主要针对AI数据中心之间的城域跨规模应用,但随着HCF成本下降和制造规模增加,低延迟和低损耗使数据中心内部HCF采用成为下一个可能的用例,海底部署是HCF生态系统的长期目标。
Q&A
Q1:空芯光纤相比传统光纤有什么优势?
A:空芯光纤的纤芯是中空的,充满空气或气体,折射率约为1,光传输速度比传统二氧化硅纤芯光纤快50%,延迟减少约30%。同时具有更低的光损耗(约0.05 dB/km vs 0.14 dB/km),能显著降低光网络功耗。
Q2:空芯光纤对AI数据中心有什么意义?
A:对于AI训练和推理应用,空芯光纤的低延迟特性能提高GPU集群效率,减少空闲时间。它可以将数据中心间最大距离增加50%,数据中心占地面积增加125%,为运营商提供更多选址灵活性。
Q3:空芯光纤商用面临哪些挑战?
A:主要挑战包括成本、可制造性、供应商多样性,以及与测试、熔接、连接器、维修和与传统光纤耦合相关的操作因素。目前主要部署在AI数据中心间的城域应用,随着成本下降和制造规模增加,将逐步扩展到更多应用场景。