草榴社区

数据中心目前正在努力应对不断增长的带宽容量需求。这主要是由于新技术的出现,特别是对 AI/ML 应用的需求不断增长。随着这些技术的发展,带宽需求预计将呈指数级增长。具体来说,随着大语言模型 (LLM) 变得更加精确和广泛,它们需要越来越高的处理速度。这种对于快速处理 LLM 模型的需求激增,凸显了数据中心内部的低效问题。本技术公告将深入探讨光纤传输 PCIe 领域,这一解决方案有望解决数据中心激增的带宽需求。我们将探讨资源限制、延迟挑战和能耗。

PCIe 是机架式服务器的首选接口,通过铜缆或背板将资源连接在一起。经过六代部署,再加上即将推出的 PCIe Gen 7.0 规范的审批,PCIe 将继续担当高速互连领域的重要参与者。图 1 展示了 PCIe 链路上的数据通信全栈及其相关组件。

图 1:PCIe 链路上的数据通信全栈

数据中心 AI 工作负载的关键瓶颈

资源限制

当前数据中心正在因为内存带宽和内存利用率问题面临效率挑战。仅能访问本地内存的限制不仅限制了数据处理的速度,还导致数据中心内存的利用不充分。尽管处理器不断发展,纳入了更多速度更快的内核,但这种情况仍在发生。

延迟

目前,延迟问题成为大多数 AI/ML 应用的严重瓶颈。通过铜缆、背板传输高数据速率和复杂调制方案,需要使用前向纠错 (FEC) 这样的先进均衡技术和算法,但这些技术和算法又进一步导致了系统延迟。

能耗

电力是数据中心最亟需的资源,目前的技术需要使用高耗电芯片。据估计,数据中心总电量的 25% 都完全用于点对点数据传输。随着数据传输需求的增长,特别是随着 AI/ML 应用的出现,预计这种能耗将急剧上升。

扩展挑战

随着新的要求和技术的出现,对数据传输和数据处理的需求也越来越高,这将直接导致更高的内存和更快的内存访问需求。数据中心的增长需要网络架构进行相应的扩展,设计可以扩展而不会造成过多财务负担的网络变得非常重要。能够根据需求增加或减少资源,这一能力对于变化激烈的 AI 工作负载至关重要。

订阅 草榴社区 IP 技术公告

包括深度技术文章、白皮书、视频、即将举行的网络研讨会、产物公告等等。

为什么选择光纤传输 PCIe

与电气链路相比,光纤链路的带宽密度更高。最初,PCIe 接口开发用于铜缆、DAC 和 PCB 互连。然而,随着数据速率的增加和电气损耗的升级,这种方案变得越来越没有吸引力。

光纤链路具有覆盖更长距离的优势。资源限制,特别是内存限制,让使用仅允许访问本地内存的现有铜缆传输 PCIe 架构来解决问题变得越来越具有挑战性。然而,光纤技术支持不同的处理单元去访问不同服务器单元或机架中的其他内存单元,从而能够突破这一限制。这有利于通过 CXL 交换机和其他类似应用进行资源集中或共享。

在较长距离范围内保持能效和成本效益方面,光纤链路表现优异。与电气链路相比,它们的损耗要小得多,这意味着它们在相同的距离内需要更少的重定时器和信号调节装置。此外,使用低成本、高良率的光纤元件可以进一步降低单位距离的成本。另一方面,铜缆互连在数据中心占据了很大的空间,不适合密集型数据中心。相比之下,光纤更灵活,占用的空间更小,使其成为提高数据中心密度的更好选择。

最后,线性直接驱动光纤链路也有助于减少延迟和降低功耗。可为光纤传输 PCIe 部署不同的光纤架构,从而改善延迟。例如,线性直接驱动光纤可避免链路中出现过多的定时器,从而降低延迟。

图 2 显示了一个光纤传输 PCIe 用例场景,用于根据 OCP(开放计算项目)要求执行的数据中心机架内和机架间配置。此类应用包括 NVMe 和 CXL 支持的离散数据中心的计算、存储、加速器和内存连接场景。

图 2:OCP 通用机架内和机架间 PCIe 连接

实现光纤 PCIe 接口的设计注意事项

PCIe 接口的最初构思并未考虑光纤兼容性。PCIe 互连的应用(如 CPU 到 CPU、GPU 到 GPU 以及 GPU 到存储器)通常使用当前的 PCIe PHY 和控制器,通过铜缆通道,从根联合体到端点加以实现。因此,从使用电气通道的 PCIe 过渡到光纤传输 PCIe 并不是一个简单的过程,有其自己的难题。

第一个挑战在于达到 PCIe 电气合规。这需要明确定义合规规范以确保互操作性。这一挑战的另一个方面是保持与光纤链路的向后兼容性。第二个挑战涉及对光纤传输 PCIe 协议的支持。这可能需要对现有协议进行更改以适应光纤技术。这些变化可能涵盖诸如 Rx 检测(这种方法目前使用阻抗确定远程电气接收器是否可以进行通信,不兼容光纤方法)、电气 IDLE 状态管理、带有光纤器件的 SSC 时钟的性能以及边带信号的处理等方面。

成立于 2023 年 8 月,旨在应对 PCIe 光纤技术采用方面的挑战。草榴社区 积极参与讨论,帮助推进“光纤友好型”PCIe 标准。

PCIe 上光纤链路的重定时和非重定时拓扑

重定时拓扑是一种关键方法,最多可在端到端链路中使用两个重定时器。在此拓扑结构中需要考虑的一些重要方面包括战略布局,以及部署的重定时器的精确数量。

相反,非重定时(即线性)拓扑引入了一组更复杂的挑战。这主要是因为线性链路破坏了路径的连续性,使得更难以遵循现有的 PCIe 标准和合规性规定。在此拓扑中,有效调节通道损耗至关重要。此外,还需要对协议层进行重大改变,并且可能还需要对 PHY 层进行重大改变。对所有类型的光纤引擎进行全面的可行性研究,也是该拓扑结构的一个关键方面。

图 3:实现光纤传输 PCIe 的各种拓扑

除了链路拓扑外,还应考虑其他关键元素,如外形标准化和 FEC 方案,以便通过光纤成功建立 PCIe 链路。目前正在评估 CDFP、OSFP、QSFP、QSFPDD 等形状,仔细考虑每个形状的优缺点。FEC 讨论中也发生了同样的情况,正在考虑采用级联 FEC 架构部分满足光纤 PMD 要求或扩展其范围,同时为整个系统提供低延迟。

在实践中见真章

光纤传输 PCIe 是建立机架单元互联,使其能够作为一个集群运行的关键。PCIe 发挥着核心作用,因为它充当控制器,是与特定软件连接的数字逻辑。其中一个主要障碍是确保向光纤 PCIe 的过渡不会干扰软件堆栈的控制过程。

更大的挑战是物理层的管理和电气-光纤接口的互操作性。草榴社区 与 OpenLight 合作,通过提供可与光纤 IP 配合使用的电气 IP 解决方案,在这个领域发挥着关键作用。一旦建立通用标准,任何光晶粒供应商都将能够集成 PCIe。草榴社区 和 OpenLight 在 OFC 2024 期间展示了全球首款采用线性驱动方法的光纤传输 PCIe 7.0 数据速率演示版本,此外,我们还展示了光纤传输 PCIe 6.x 演示版本。该演示版本展示了端到端链路 BER 性能比 FEC 阈值高出几个数量级,表明采用光纤传输 PCIe 7.0 的可行性优于采用 128Gbps PAM4 传输。这样的性能是通过使用离散电气和光纤组件构建光纤传输 PCIe 链路达到的。正如 OFC24 期间展示的那样,驱动具有卓越 PPA 和延迟的电气 PCIe 链路的 草榴社区 SerDes 依然不受这种不理想甚至最差情况用例场景的限制,展示了 草榴社区 SerDes 的灵活性和稳定性。

总结

很明显,在 AI/ML 及随之而来的带宽需求主导的时代,光纤传输 PCIe 代表了信号传输的未来趋势。其开发和采用取决于支持性生态系统的实现情况,草榴社区 正在积极构建这一生态系统。,经过不断开展互操作性演示并在 PCIe 7.0 数据速率和光纤传输 PCIe 6.x 方面取得了出色的现场成绩,有助于减少集成和降低风险,并实现首次即流片成功。

草榴社区 IP 技术公告

深度技术文章、白皮书、视频、网络研讨会、产物公告等等。

继续阅读