(原标题:GPU争夺战,OpenAI点燃新战火)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容编译自semianalysis,谢谢。
由于推动扩展定律的持续改进,AI 基础设施的建设永无止境。领先的前沿 AI 模型训练集群今年已扩展到 100,000 个 GPU ,预计 2025 年将扩展到 300,000 个以上的 GPU 集群。考虑到许多物理限制,包括施工时间表、许可、法规和电力可用性,在单个数据中心站点同步训练大型模型的传统方法正在达到临界点。
Google、OpenAI 和 Anthropic 已开始实施计划,将其大型模型训练从一个站点扩展到多个数据中心园区。Google拥有当今世界上最先进的计算系统,并率先大规模使用许多关键技术,而这些技术现在才被其他公司采用,例如其机架级液冷架构和多数据中心训练。
Gemini 1 Ultra 在多个数据中心进行了训练。尽管他们拥有更多的 FLOPS,但他们现有的模型落后于 OpenAI 和 Anthropic,因为他们在合成数据、RL 和模型架构方面仍在追赶,但即将发布的 Gemini 2 将改变这一现状。此外,到 2025 年,谷歌将有能力在多个园区进行千兆瓦级的训练,但令人惊讶的是,谷歌的长期计划并不像 OpenAI 和微软那么积极。
大多数公司才刚刚开始接触采用 Nvidia GB200 架构的高密度液冷 AI 芯片,该芯片计划明年量产至数百万台。另一方面,谷歌已经部署了数百万个液冷 TPU,占液冷 AI 芯片容量超过 1 千兆瓦 (GW)。谷歌基础设施与其竞争对手之间的明显差异肉眼可见。
上图显示的 AI 培训园区的电力容量已接近 300MW,明年将增加到 500MW。除了规模庞大之外,这些设施还非常节能。我们可以看到下方的大型冷却塔和集中式设施供水系统,水管连接三座建筑,能够排出近 200MW 的热量。根据最新的环境报告,该系统使 Google 一年中大部分时间无需使用冷却器即可运行,从而在 2023 年实现 1.1 PUE(电源使用效率)。
虽然上图仅显示了设施供水系统,但水也通过直接到芯片系统输送到机架,其中液体到液体热交换器将热量从机架传输到中央设施供水系统。这个非常节能的系统类似于 Nvidia GB200 的 L2L 部署——在我们的GB200 深度探究中详细描述了这一点。
另一方面,微软目前最大的训练集群(如下图所示)不支持液体冷却,每栋建筑的 IT 容量降低了约 35%,尽管建筑 GFA(总建筑面积)大致相同。已发布的数据显示 PUE 为 1.223,但 PUE 计算对风冷系统有利,因为服务器内部的风扇功率没有得到适当考虑——对于风冷 H100 服务器,服务器功率为 15% 以上,而液体 DLC 冷却服务器则为 <5%。因此,对于输送到芯片的每一瓦电力,微软需要额外约 45% 以上的电力用于服务器风扇功率、设施冷却和其他非 IT 负载,而谷歌每瓦 IT 功率的额外负载更接近约 15%。再加上 TPU 的更高效率,情况就变得模糊不清了。
此外,为了在沙漠(亚利桑那州)实现良好的能源效率,微软需要大量的水——水利用效率比(L/kWh)为 2.24,远高于该集团的平均水平 0.49,而谷歌的平均水平略高于 1。这种高耗水量引起了媒体的负面关注,他们被要求在该园区即将建成的数据中心改用风冷式冷水机组,这将减少每栋建筑的用水量,但会进一步增加 PUE,从而扩大与谷歌的能源效率差距。在未来的报告中,我们将更详细地探讨数据中心的工作原理和典型的超大规模设计。
因此,基于现有的数据中心参考设计,Google 拥有更高效的基础设施,并且可以更快地构建 MW,因为每栋建筑的容量提高了 50% 以上,并且每个 IT 负载所需的公用电力更少。
谷歌的人工智能训练基础设施
谷歌一直有自己独特的基础设施建设方式。虽然他们的数据中心设计比微软、亚马逊和 Meta 的更先进,但这并不能完全体现他们的基础设施优势。谷歌十多年来一直在建设大型园区。谷歌位于爱荷华州康瑟尔布拉夫斯的数据中心(如下图所示)就是一个很好的例子,尽管已有多年历史,但西部的 IT 容量接近 300MW 。虽然大量容量分配给了传统工作负载,但我们认为底部的建筑物承载着大量的 TPU 。东部扩建采用最新的数据中心设计,将进一步提高 AI 训练能力。
谷歌最大的 AI 数据中心也彼此相邻。谷歌有两个主要的多数据中心区域,分别位于俄亥俄州和爱荷华州/内布拉斯加州。如今,康瑟尔布拉夫斯周边地区正在积极扩建,以达到现有容量的两倍以上。除了上述园区外,谷歌还在该地区拥有另外三个站点,这些站点均在建设中,并且都正在升级为高带宽光纤网络。
有三个站点相距约 15 英里(康瑟尔布拉夫斯、奥马哈和爱荷华州帕皮隆),还有一个站点距离约 50 英里,位于内布拉斯加州林肯。下图中的帕皮隆园区为谷歌在奥马哈和康瑟尔布拉夫斯周围的业务增加了 250MW 以上的容量,加上上述总容量,到 2023 年将超过 500MW,其中很大一部分分配给 TPU。
另外两个站点目前规模还没有这么大,但正在快速发展:到 2026 年,四个校区将合并形成一个 GW 级的 AI 训练集群。距离约 50 英里的林肯数据中心将成为谷歌最大的独立站点。
而谷歌庞大的 TPU 足迹还不止于此。另一个即将建成的 GW 级集群位于俄亥俄州哥伦布附近 - 该地区也遵循类似的主旋律,正在开发三个园区,到 2025 年底将达到 1 千兆瓦!
位于新奥尔巴尼集群将成为 Google 最大的集群之一,并且已经托管 TPU v4、v5、v6。
Google 俄亥俄州和 Google 爱荷华州/内布拉斯加州的集中区域也可以进一步互连,以提供数千兆瓦的电力来训练单个模型。我们在数据中心模型中拥有超过 5,000 个数据中心的精确详细的季度历史和预测电力数据。这包括 AI 实验室、超大规模数据中心、NeoCloud 和企业的集群构建状态。本报告后面将详细介绍多数据中心训练的软件堆栈和方法。
微软和 OpenAI 反击?
微软和 OpenAI 都很清楚自己在基础设施方面的劣势,并着手进行一项雄心勃勃的基础设施建设,以超越谷歌。他们正试图在水冷多数据中心训练集群领域击败谷歌。
微软和 OpenAI 正在建设接近千兆瓦规模的超密集液冷数据中心园区,同时还与Oracle、Crusoe、CoreWeave、QTS、Compass 等公司合作,帮助他们实现比谷歌更大的总体 AI 训练和推理能力。
其中一些园区一旦建成,将比目前任何单个谷歌园区都要大。事实上,微软在威斯康星州的园区将比谷歌在俄亥俄州的所有园区加起来还要大,但建设起来还需要一些时间。
更雄心勃勃的是 OpenAI 和微软计划将各个超大型校园连接在一起,并在全国范围内开展大规模分布式训练。微软和 OpenAI 将率先实现多 GW 计算系统。他们与供应链合作伙伴一起深入开展有史以来最雄心勃勃的基础设施建设。
接下来,我们将详细介绍微软和 OpenAI 的基础设施建设。在此之前,它将首先介绍多校区同步和异步训练方法、落后者、容错、静默数据损坏以及与多数据中心训练相关的各种挑战。
然后,我们将解释如何通过光纤电信网络(技术和设备)实现数据中心互连以及数据中心之间的城域和长途连接。
最后,我们将探索电信供应链并讨论下一阶段人工智能基础设施建设的主要受益者,包括我们认为哪些公司在这方面的杠杆率最高。
多数据中心分布式训练
在开始介绍 Microsoft OpenAI 基础架构构建之前,首先介绍一下分布式训练。大型语言模型 (LLM) 主要采用同步训练。训练数据通常被划分为几个较小的迷你批次,每个批次由在不同 GPU 组上运行的模型的单独数据副本处理。处理完迷你批次后,每个副本都会计算梯度,然后所有副本必须在每个迷你批次处理结束时同步。
这种同步涉及聚合所有副本的梯度,通常通过像 all-reduce 这样的集体通信操作。梯度聚合后,它们会被平均并用于一致更新模型的参数。这可确保所有数据副本都保持相同的参数集,从而使模型以稳定的方式收敛。此过程的锁步性质(即所有设备都等待彼此完成之后再进入下一步)可确保任何设备在模型状态方面都不会领先或落后太多。
虽然同步梯度下降提供了稳定的收敛,但它也带来了重大挑战,特别是在单个训练作业中扩展到 10 万多个芯片以上时,通信开销会增加。同步特性还意味着您对延迟有严格的要求,并且必须有一个连接所有芯片的大管道,因为数据交换是以巨大的突发方式发生的。
当您尝试使用来自多个地区的 GPU 来完成相同的训练工作量时,它们之间的延迟会增加。即使光纤中的光速为 208,188 km/s,从美国东海岸到美国西海岸的往返时间 (RTT) 也为 43.2 毫秒 (ms)。此外,各种电信设备都会造成额外的延迟。这是一个相当大的延迟,对于标准同步训练来说很难克服。
根据阿姆达尔定律,当有大量同步活动时,向工作负载添加更多芯片所带来的加速效果会逐渐减少。随着您添加更多芯片,并且程序运行时需要同步的部分(即对应于保持串行且无法并行化的计算比例)保持不变,您将达到理论极限,即使将 GPU 数量增加一倍,也无法使总体吞吐量增加超过 1%。
除了阿姆达尔定律所描述的将更多 GPU 扩展到单个工作负载的理论限制之外,同步梯度下降还存在实际挑战,例如落后者。当一个芯片慢了 10% 时,就会导致整个训练运行慢 10%。例如,在下图中,从步骤 7,500 到步骤 19,000,字节跳动发现他们的 MFU 缓慢下降,因为工作负载中的更多芯片一个接一个地变慢,整个工作负载变得受落后者限制。
在识别并移除落后者后,他们从检查点重新启动训练工作负载,将 MFU 增加回正常水平。如您所见,MFU 从 40% 降至 30%,百分比下降了 25%。当您拥有 100 万个 GPU 时,MFU 下降 25% 相当于在任何给定时间有 25 万个 GPU 处于闲置状态,仅 IT 资本支出就相当于超过 100 亿美元的成本。
容错训练
容错训练是所有分布式系统必不可少的一部分。当数以百万计的计算、内存和存储元件工作时,各种“相同”系统之间的性能差异总是会存在故障,甚至只是硅片抽奖。系统的设计就是为了处理这种情况。与直觉相反,在世界上最大的计算问题——机器学习训练中,人们采用了完全相反的方法。
所有芯片都必须完美运行,因为如果 10 万个 GPU 中有一个发生故障,这个 GPU 就会导致所有 10 万个 GPU 从检查点重新启动,从而导致大量的 GPU 空闲时间。通过容错训练,当单个 GPU 发生故障时,只有少数其他 GPU 会受到影响,绝大多数 GPU 将继续正常运行,而无需从模型权重检查点重新启动。LLAMA 3.1 等开放模型因此浪费了大量成本和时间。
Nvidia 的 InfiniBand 网络也存在同样的潜在缺陷,即每个数据包必须以完全相同的顺序传送。任何变化或故障都会导致数据重新传输。正如100,000 GPU 集群报告中所提到的,仅网络故障就以分钟而不是小时计算。
实现容错训练的主要开源库称为 TorchX(以前称为 TorchElastic),但它存在重大缺陷,即不涵盖长尾故障案例,也不支持 3D 并行性。这导致基本上每个大型 AI 实验室都实施自己的容错训练系统方法。
正如预期的那样,作为容错基础设施领域的领导者,谷歌通过Borg和Pathways实现了最佳的容错训练。这些库涵盖了最多的极端情况,并且是紧密垂直整合的一部分:谷歌正在设计自己的训练芯片,构建自己的服务器,编写自己的基础设施代码,并进行模型训练。这类似于制造汽车,垂直整合程度越高,处理根本制造问题和解决它们的速度就越快。谷歌几年前的 Pathways 系统证明了他们的实力,我们将在本报告后面进行描述。
一般来说,容错是将 100k+ GPU 集群扩展到单个工作负载时要解决的最重要的方面之一。Nvidia 的 AI 系统可靠性远远落后于 Google,这就是为什么容错在 NVIDIA 的职位描述中被反复提及的原因……
CPU 领域的容错基础设施通常是一个已解决的问题。例如,Google 的内部数据库Spanner运行 Google 的所有生产服务,包括 Youtube、Gmail 和 Stadia (RIP) 等,并且能够在全球范围内分布和扩展,同时对存储服务器和 NVMe 磁盘故障具有容错能力。Google 数据中心每小时有数百个 NVMe 磁盘发生故障,但对于最终客户和内部而言,Spanner 的性能和可用性保持不变。
大型集群上传统 CPU 工作负载的另一个容错示例是MapReduce。MapReduce是一种建模方式,用户可以通过处理数据样本来“映射”数据样本,并将多个数据样本“减少”为一个聚合值。例如,计算一篇文章中有多少个字母“W”对于 map-reduce 来说是一项很大的理论工作负载:映射每个单词,map 将输出每个数据样本中有多少个字母“W”,然后“reduce”将汇总所有样本中的“W”数量。MapReduce 可以通过检测哪些 CPU 工作程序出现故障并在另一个 CPU 工作程序节点上重新执行失败的 map 和 Reduce 任务来实现容错。
CPU 领域中相当一部分容错研究和系统是由 Jeff Dean、Sanjay Ghemawat 和 Google 的许多其他世界级分布式系统专家开发的。随着 ML 训练规模越来越大,需要更好的容错 ML 训练系统,这种创建强大、可靠系统的专业知识将成为 Google 的竞争优势之一。
一般来说,GPU 故障遵循浴缸形状曲线,其中大多数故障发生在集群生命周期的开始阶段(即早期故障)和结束阶段。这就是为什么集群范围的老化极其重要。不幸的是,由于他们的目标是试图从集群的生命周期中榨取最多的钱,相当一部分 AI Neoclouds 在其集群中没有得到适当的老化,导致最终用户体验极差。
相比之下,在超大规模和大型 AI 实验室中,大多数集群将在高温和快速波动的温度下进行相当长一段时间的老化,以确保所有早期故障都已过去并已转入随机故障阶段。一旦 GPU 和收发器度过了早期问题,就必须平衡充足的老化时间,避免过度使用它们的使用寿命。
磨损故障阶段是指组件因疲劳而导致使用寿命终止时出现故障。通常是由于在 24/7 的使用期间中高温之间的快速波动。由于严重的热循环,收发器尤其容易遭受严重磨损。
在 CPU 领域,当托管虚拟机的物理主机出现错误率增加的迹象时,在物理主机之间迁移虚拟机 (VM) 是很常见的。超大规模计算提供商甚至已经想出了如何在物理主机之间实时迁移虚拟机,而用户端甚至不会注意到它已被迁移。这通常是通过在后台复制内存页面来完成的,然后,当用户的应用程序速度减慢一秒钟时,虚拟机将迅速切换到第二个正常运行的物理主机上。
主流 Linux 软件包 CRIU(Checkpoint/Restore In Userspace)用于 Docker、Podman 和 LXD 等主流容器引擎。CRIU 支持在物理主机之间迁移容器和应用程序,甚至可以将整个进程状态冻结并检查点到存储磁盘。长期以来,CRIU 仅适用于 CPU 和 AMD GPU,因为 Nvidia 直到今年才开始实现它。
从 2024 年初开始,Nvidia GPU 上就可以使用 GPU CRIU 检查点,现在人们可以以更加简化的方式将 CPU 进程状态、内存内容和 GPU 进程从一个物理主机迁移到另一个物理主机。
在微软的 Singularity Cluster Manager 论文中,作者描述了他们使用 CRIU 进行 GPU VM 透明迁移的方法。Singularity 也是从头开始设计的,允许全局调度和管理 GPU 工作负载。该系统已用于 Phi-3 训练(1024 个 H100)和许多其他模型。这是微软追赶谷歌垂直整合的 Borg 集群管理器的举措。
不幸的是,由于容错训练的重要性,方法的发布实际上已经停止。当 OpenAI 和其他公司向硬件行业讲述这些问题时,他们非常含糊其辞,没有透露任何分布式系统技巧。需要明确的是,这些技术比模型架构更重要,因为两者都可以被视为计算效率。
另一个常见问题是静默数据损坏 (SDC),它会导致计算机在处理结果时无意中导致静默错误,而不会向用户或管理员发出任何警告。这是一个很难解决的问题,因为静默的字面意思是错误不可察觉。这些静默错误在许多情况下可能微不足道,但它们也可能导致输出失真为 NaN(“非数字”)或输出梯度非常大。如谷歌的 Jeff Dean 在下面绘制的梯度范数图中所示,当梯度范数上升时,一些 SDC 可以很容易地通过视觉识别,但有些 SDC 无法通过这种方法检测到。
还有一些梯度范数峰值不是由硬件 SDC 引起的,而是由大量数据或超参数(如学习率和初始化方案)未正确调整引起的。所有运行 GPU 集群的公司都会定期遇到 SDC,但由于资源有限,一般中小型 Neocloud 无法快速识别和修复它们。
对于 Nvidia GPU,有一款名为 DCGMI Diagnostics 的工具可帮助诊断 GPU 错误(例如 SDC)。它有助于捕获大量常见 SDC,但遗憾的是它遗漏了许多导致数值错误和性能问题的极端情况。
我们在测试来自不同 Neoclouds 的 H100 时遇到的一个问题是,DCGMI 诊断级别 4 已通过,但 NVSwitch 的算术逻辑单元 (ALU) 无法正常工作,导致在使用 NVLS NCCL 算法时出现性能问题和错误的全归约结果。我们将在即将发布的 NCCL/RCCL 集体通信文章中更深入地探讨我们的基准测试结果。
相比之下,Google 的 Pathways 擅长识别和解决 SDC。由于 Google 基础设施和训练堆栈的垂直整合,他们能够在开始大规模训练工作量之前轻松识别 SDC 检查是结语还是序言。
异步训练曾经是一种广泛使用的训练技术。2012 年,谷歌大脑著名的 100x 工程师 Jeff Dean 发表了一篇名为Distbelief的论文,他在论文中描述了在数千个 CPU 核心集群上训练深度学习模型的异步(“Async”)和同步(“Sync”)梯度下降技术。该系统引入了一个全局“参数服务器”,并被广泛用于生产中,以训练谷歌的自动完成、搜索和广告模型。
这种参数服务器式训练在当时对模型非常有效。然而,由于较新的模型架构存在收敛挑战,每个人都通过重新使用完全同步梯度下降来简化训练。所有当前和以前的前沿级模型,如 GPT-4、Claude、Gemini 和 Grok,都在使用同步梯度下降。但为了继续扩大训练运行中使用的 GPU 数量,我们认为目前应该重新使用异步梯度下降。
培训策略
根据阿姆达尔定律,解决增加更多芯片时收益递减的一种方法是减少程序之间所需的全局同步数量,并允许更多工作负载以挂钟时间的百分比 (半) 独立运行。可以想象,这可以很好地映射到多校区、多区域和跨大陆的训练中,因为各种 GPU 之间存在延迟和带宽的层次结构。
在校园内非常接近(小于 1 公里)的建筑物之间,延迟非常低,带宽非常高,因此能够更频繁地同步。相比之下,当您在区域内(小于 100 公里)时,您可能拥有大量带宽,但延迟较高,并且您可能希望同步的频率较低。此外,每个校园之间拥有不同数量的 GPU 是可以接受的,因为在它们之间实现负载平衡非常容易。例如,如果校园 A 有 100k 个 GPU,而校园 B 只有 75k 个 GPU,那么校园 B 的批处理大小可能约为校园 A 批处理的 75%,然后在进行同步时,您将对不同的校园取加权平均值。
此原则可应用于多个区域和跨洲际,因为这些区域的延迟较高,因此同步次数应更少。实际上,同步存在层次结构。
打个比方,这就好比你倾向于更频繁地见到距离你较近的朋友,而不是同一海岸的其他城市的朋友,并且你倾向于更频繁地见到同一海岸的朋友,而不是其他大陆城市的朋友。
此外,分层同步梯度下降 (SGD) 的另一个好处是它有助于缓解落后者,因为大多数落后者通常会在几个步骤中出现,然后恢复正常性能,因此同步越少,落后者在异常性能期间破坏同步过程的机会就越少。由于每次迭代都没有全局同步,落后者的影响不那么突出。分层 SGD 是近期多数据中心训练的一项非常常见的创新。
另一种有希望的方法是重新审视 Jeff Dean 在 2012 年发表的DistBelief论文中讨论的异步参数服务器的使用。模型的每个副本都会处理自己的一批标记,并且每几步,每个副本都会与参数服务器交换数据并更新全局权重。这就像 git 版本控制,每个程序员都会在自己的任务上工作几天,然后将其合并到主分支(现在称为主分支)中。这种方法的简单实现可能会产生收敛问题,但 OpenAI 将能够使用各种优化器创新来解决从本地模型副本到参数的数据交换中的更新问题。
MetaAI 的 Branch-Train-Merge 论文描述了一个类似的想法,即从现有的 LLM(主分支)分支,然后在数据集的子集上进行训练,然后将其合并回主分支。我们相信,从这种方法中学到的知识将被纳入 OpenAI 等公司最终将使用的多校区培训技术中。
Branch-Train-Merge 和其他类似方法的主要挑战是,当涉及到 GPT3 175B 或 GPT4 1.8T 等模型类别时,合并并不是现代 LLM 的已解决问题。为了保持收敛,需要投入更多的工程资源来管理合并和更新主分支。
为了将其扩展为层次结构方法,我们还需要有参数服务器层,其中模型副本与最近的参数服务器之间以及参数服务器之间交换数据。在最低级别,各个模型副本与其最近的参数服务器通信,更频繁地执行更新,以确保在本地组内更快地收敛和同步。
这些本地参数服务器将被分组到更高的层级中,其中每个层级都会聚合并细化来自较低层的更新,然后再向上传播。由于涉及的 GPU 数量巨大,参数服务器可能需要以 FP32 保存主权重。这类似于 Nvidia 推荐的 FP8 训练服务器以 FP32 保存主权重的方式,以便它不会因许多 GPU 累积而溢出。但是,在进行矩阵乘法之前,训练服务器将向下转换为 FP8 以提高效率。我们相信这个方案仍然适用,其中参数服务器中的主权重将是 FP32,但实际计算将在 FP8 或甚至更低的版本(例如 MX6)中执行。
为了实现多校区训练,Google 目前使用功能强大的分片器 MegaScaler,它能够使用 Pathways 的同步训练将一个校区内的多个 pod 和一个区域内的多个校区进行分区。MegaScaler 在扩大单个训练工作负载所需的芯片数量时为 Google 提供了稳定性和可靠性方面的强大优势。
随着行业回归异步训练,这可能会成为他们的支柱。MegaScaler 建立在同步式训练的原则之上,其中每个数据副本与所有其他数据副本进行通信以交换数据。他们可能很难将异步训练添加到 MegaScaler,可能需要进行大规模重构,甚至需要启动一个新的绿地项目。尽管 Pathways 是在考虑异步数据流的情况下构建的,但实际上,Pathways 的所有当前生产用例都是完全同步的 SGD 式训练。话虽如此,谷歌显然有能力重新做这个软件堆栈。
跨区域联网数据中心时有两个主要限制:带宽和延迟。我们通常认为,从长远来看,限制因素将是由于光在玻璃中的速度而导致的延迟,而不是带宽。这是因为在校园之间和区域之间铺设光缆的成本主要是许可和开沟的成本,而不是光缆本身的成本。因此,在凤凰城和达拉斯之间铺设 1000 对光纤的成本仅略高于铺设 200 对光纤的成本。话虽如此,但该行业在监管框架和时间表下运作,光纤无法在瞬间铺设,因此减少带宽的策略仍然非常关键。
我们相信,在这个多校区、多区域训练集群上训练的模型将达到 100T+ 的数量级。在一个区域内的可用区之间,我们认为,在不久的将来,一个区域内的校园站点之间的带宽增长到 5Pbit/s 左右是合理的假设,而 1Pbit/s 是区域之间合理的带宽量。如果跨数据中心带宽真的那么高,那么在校园站点之间交换权重并不是训练的主要瓶颈,因为以线速交换权重仅需 0.64 秒。当交换 400TeraBytes(4Bytes = param)的权重时,考虑到每几个计算步骤需要多少时间,仅需 0.64 秒就非常不错了。
虽然 Nvidia 提供了一款名为 MetroX 的 InfiniBand 结构网络交换机,覆盖范围在 40 公里内,但没有一家 AI 实验室使用它,只有几个非 AI HPC 集群跨越 10 公里内的多个校园。此外,与城域网 <40 公里以太网解决方案的成熟生态系统相比,它每个机箱只有 2x100Gbps。因此,即使是大量使用 InfiniBand 的微软,也在数据中心之间使用以太网。
从千兆比特到太比特:调制和复用
当今,数据中心内的网络(即数据通信)通常专注于通过光纤链路为每个终端设备(即每个 GPU)提供高达 400Gbps 的速度,而随着 Nvidia 向 Connect-X8 网络接口卡(NIC)的过渡,用于 AI 使用的 800Gbps 的过渡将于明年顺利进行。
相比之下,电信网络将一个设施内多个设备和服务器的通信需求聚合到数量更少、速度更快的光纤上。虽然运行 800 Gbps 的数据通信收发器通常每对光纤 (DR8) 仅使用高达 100 Gbps 的速度,需要多个单独的光纤对,但电信应用已经可以在海底电缆和许多陆地和城域部署中仅使用一对单模光纤来满足超过 20-40Tbps 的速率。
更大的带宽是通过以下方式实现的:
更高阶的调制方案,在给定的波长上每个符号提供更多的位数。
密集波分复用 (DWDM),将多种波长的光组合到单根光纤上。
在调制方面,Datacom 通常使用能够进行 PAM4 调制的基于 VCSEL 和 EML 的收发器,这是一种强度调制方案(即强度调制直接检测 - IMDD 光学),通过使用四个不同的级别发信号来实现,每个符号编码两位数据。
提高速度可以通过增加发送符号的速率(以千兆波特或 Gbd 为单位)或增加每个符号的位数来实现。例如,400G SR8 收发器可以以 26.6 Gbd 的速率传输符号,并使用 PAM4 实现每个符号 2 位,每对光纤总共 50 Gbps。将 8 对光纤组合成一个连接器,总速度可达到 400 Gbps。通过将符号速率提高到 53.1 Gbd,同时仍在 8 个通道上使用 PAM4,可以实现总速度达到 800Gbps。但是,与使用高阶调制方案相比,将符号速率加倍通常是一项更艰巨的挑战。
16 正交幅度调制 (16-QAM) 就是这样一种方案,广泛应用于 ZR/ZR+ 光学和电信应用。它不仅通过对四种不同幅度的信号波进行编码,还使用两个单独的载波,每个载波可以有四种不同的幅度,并且彼此相差 90 度,总共 16 种不同的可能符号,每个符号提供 4 位。通过实施双极化,可以进一步扩展此功能,双极化利用另一组载波,一组载波处于水平极化状态,另一组载波处于垂直极化状态,提供 256 个可能的符号,实现 8 位。大多数 400ZR/ZR+ 和 800ZR/ZR+ 收发器仅支持高达 DP-16QAM,但在优质光纤上运行的专用电信系统(具有更大的外形尺寸)可以支持高达 DP-64QAM,每个符号 12 位。
要使用不同相位实现调制方案,需要相干光学(不要与 Coherent 公司混淆)。当光源发射的光波彼此同相时,光被认为是相干的 - 这对于实现基于相位的调制方案非常重要,因为不一致(非相干)的光源会导致不一致的干扰,从而无法恢复相位调制信号。
相干光学需要使用能够处理高阶调制方案的相干数字信号处理器 (DSP),以及可调激光器和调制器,但在 400ZR 的情况下,通常使用硅光子学来降低成本。请注意,可调激光器也非常昂贵,因此,有人尝试在相干光中使用更便宜的 O 波段激光器。
ZR/ZR+ 光纤是一种越来越流行的收发器类型,它使用相干光学器件,专为数据中心互连而设计,每对光纤可提供更大的带宽,并实现 120 公里至 500 公里的更大覆盖范围。它们通常采用 OSFP 或 QSFP=DD 外形尺寸 - 与通常用于数据通信应用的相同 - 这意味着它们可以直接插入数据通信中使用的相同网络交换机。
传统电信系统可用于数据中心互连,但与 ZR/ZR+ 可插拔设备相比,这需要更为复杂的电信设备链,占用数据中心的更多物理空间,而 ZR/ZR+ 可插拔设备可以直接插入任一端的网络端口,从而避开多个电信设备。
与使用 PAM4 的强度调制直接检测 (IMDD) 收发器相比,高阶调制方案可使每对光纤具有更大的带宽,DP-16QAM 可使带宽增加 8 倍。不过,长距离传输仍然受到光纤限制,因此也可以使用密集波分复用 (DWDM) 来使每对光纤具有更大的带宽。DWDM 的工作原理是将多个波长的光组合成一对光纤。在下面的示例中,C 波段 (1530nm 至 1565nm) 上的 76 个波长和 L 波段 (1565nm 至 1625nm) 上的 76 个波长被复用到同一根光纤上。
如果该系统可以部署每波长 800Gbps 的速率,那么单对光纤的速率可达 121.6Tbps。海底电缆通常会最大程度地增加所使用的波长数量,而有些部署可能使用少于 16 个波长,不过使用 96 个波长的部署也并非闻所未闻,目前典型的部署目标是每对光纤 20-60 Tbps。
许多部署都是从仅点亮 C 波段上的几种波长的光开始的,然后随着客户需求的扩大,点亮更多的 C 波段并最终点亮 L 波段,从而使现有光纤的速度随着时间的推移得到大幅升级。
超大规模运营商的电信网络部署
大多数美国大都市仍然拥有大量可供使用和利用的光纤,而人工智能数据中心互连所需的巨大带宽是充分利用这种容量的完美方式。在海底电缆中,由于物理电缆和部署,部署成本与光纤对数量成正比,因此联盟通常只部署 8-12 对光纤。在陆地电缆中,大部分成本在于挖掘沟渠的人工和设备(以及某些城市地区的通行权),而不是物理光纤,因此公司在大都市地区挖掘陆地路线时往往会铺设数百甚至数千对光纤。
跨海训练将比陆地训练困难得多。
典型的光纤业务案例可能会假设有相当数量的光纤对闲置以备未来需求。而且不仅仅是地铁,一般来说,任何主要道路、输电线路、铁路或基础设施都倾向于在旁边铺设光纤电缆——任何建设基础设施的人都倾向于在旁边部署光纤作为副业,因为如果你无论如何都要在现场安排挖沟队,那么这会吸引最少的增量成本。
当谈到超大规模电信网络时,他们倾向于建立自己的网络,而不是与电信提供商合作,直接与设备供应商和建筑公司合作,以满足长途、城域和数据中心互连需求。
数据中心互连,即在点对点网络中连接相距不到 50 公里的两个数据中心,通常通过铺设数千对光纤来构建。超大规模提供商可以将 ZR 收发器插入两个远距离数据中心内的网络交换机,然后要么将收发器调整为不同的光波长,然后使用无源多路复用器(即 DWDM 链路)将最多 64 个收发器组合到单个光纤对上,如果使用 400ZR,则每对光纤可达到 25.5 Tbps,或者只需将每个 ZR 收发器插入其自己的光纤对即可。
更复杂的电信系统也实施了 DWDM,可用于将更多的 ZR 光信号多路复用到更少数量的光纤对上,并实现不仅仅是点对点网络,但这需要几个机架空间用于电信设备容纳路由器、ROADM 和 DWDM 所需的多路复用器/解复用器。
由于大部分成本都花在了为光纤挖沟上,因此大多数超大规模企业发现,部署比所需更多的光纤对更容易,从而节省了数据大厅内的空间,并避免了更复杂的电信部署。他们通常只会在物理光纤容量受限的地方部署光纤,才会在短距离内部署广泛的电信系统,这种情况可能出现在美国境外,在光纤供应稀缺的大都市中,超大规模企业可能被迫只使用 2-4 对光纤对。
然而,对于长途网络,超大规模网络需要采用全套电信产品,这些产品与数据通信中使用的产品截然不同。典型的长途网络至少需要几个基本系统:转发器、DWDM 多路复用器/多路分解器、路由器、放大器、增益均衡器和再生站,在大多数情况下(但并非所有情况下)还需要 ROADM(可重构光分插复用器)和 WSS(波长选择开关)。
转发器提供与电信领域收发器类似的功能,但价格更昂贵,并且工作功率更高。转发器一端向实际电信网络(线路端)发送/接收数据,另一端提供多种可能的端口组合,以连接到该位置内的客户端设备(客户端)。例如,转发器可能在线路端提供 800Gbps,在客户端提供 4 个 200Gbps 光纤或电端口,但客户可以选择的端口容量和电/光组合不计其数。客户端可以连接到数据中心内的路由器或交换机,而线路端将连接到多路复用器,使用 DWDM 和可能的 ROADM 组合多个转发器的信号,从而实现比简单的点对点连接更复杂的网络拓扑的光交换。
DWDM 使用多路复用器和解复用器 (mux/demux) 工作,它们从每个转发器获取略有不同的光信号波长,并将其组合到一对光纤上。每个转发器都是可调的,可以拨入特定波长的光以进行多路复用到同一对光纤上。使用 ROADM 时,转发器通常会连接到无色多路复用器/解复用器,然后从那里连接到波长选择开关 (WSS),从而使 ROADM 能够动态地将转发器调整到特定波长,以针对各种网络目标进行优化。
需要使用光放大器来对抗光纤上长距离传输的光信号衰减。光纤线路上每隔 60-100 公里放置一个放大器,可以直接放大光信号,而无需将光信号转换为电信号。每三个放大器之后需要一个增益均衡器,以确保以不同速度传播的不同波长的光得到均衡,以避免错误。在一些数千公里的超长距离部署中,需要进行再生,这涉及将光信号转换为电子信号,重新整形和重新定时信号,然后使用另一组转发器重新传输。
如果网络连接两个以上的点,并且有多个站点用于添加或接收流量,则需要使用 ROADM(可重构光分插复用器)。该设备可以在网络的给定部分以光学方式添加或删除特定波长的光,而无需将任何信号卸载为电信号以进行任何处理或路由。给定位置要发送或接收的波长可以从主光纤网络添加或删除,而其他不向该位置传输流量的波长可以不受阻碍地通过 ROADM。ROADM 还具有控制平面,它可以主动发现和监控网络状态,了解光纤网络上哪些通道是空闲的、通道信噪比、预留波长,并且如上所述,可以控制转发器,将线路侧调整到适当的波长。
这些不同的组件通常组合在一个模块化底盘中,其外观可能类似于:
Ciena、诺基亚、Infinera 和思科是全球几家主要的电信系统和设备供应商,而 Lumentum、Coherent、Fabrinet 和 Marvell 则为这些主要供应商提供各种子系统和有源组件。到目前为止,组件供应商的大部分优势都体现在用于数据中心互连的 ZR/ZR+ 光学器件上,但随着超大规模企业和其他运营商必须认真对待相邻数据中心以外的培训,他们可能会大幅增加对 ASP 更高的电信设备和系统的支出。
非云客户对电信设备的需求似乎也已触底,并可能很快进入周期复苏阶段——这将提振各家电信供应商的命运。
https://www.semianalysis.com/p/multi-datacenter-training-openais
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3877内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
站长:乡村生活网;联系电话:023-72261733 ;微信/手机:18996816733;邮箱:2386489682@qq.com;
办公地址:涪陵区松翠路23号附12;