础滨驱动的设计应用
2022 年 6 月,Frontier 超级计算机登上了全球最快超级计算机系统榜单的榜首,这款超级计算机的峰值性能高达 1.1 ExaFlop,而功耗仅为 21.1 MW,这标志着百亿亿次级计算时代已经到来。最新的 HPC 性能基准测试表明,高性能计算 (HPC) 数据中心的吞吐量在很大程度上取决于网络结构。在 Frontier 集群中,PCIe 4.0 物理层通过 12.8 Tbps 交换机连接了近 900 万个 CPU/GPU 内核,在 145 公里的网络中提供 100GbE 带宽。下一代 HPC 数据中心预计将使用 PCIe 5.0/6.0 以及 56G/112G 以太网 PHY 实现具有互连升级功能的 200G/400G/800G 网络。
本文从距离、架构、功耗和通道类型这几个角度概述了 112G 以太网 PHY 提供的各种实现方案。
随着用于百亿亿次级计算的 HPC 数据中心的部署,互连结构、端口和 SerDes IP 如今能够支持更高的速度。图 1 是 HPC 数据中心双机架网络的图示,其中的架顶 (ToR) 交换机通过光链路连接机架。在机架内,计算资源通过 PCIe/CXL 和数据处理单元连接,该单元本质上是具有处理能力的网络接口卡,通过直连铜缆 (DAC) 或有源铜缆 (ACC) 将 ToR 交换机连接到这些内核。
图 1:HPC 作为计算资源网络
表 1 总结了 HPC 数据中心当前和未来的互连实现方案。采用 56G PHY 的四通道 (x4) 或八通道 (x8) 外形尺寸的早期部署带来了 200G/400G 端口。随着 SerDes 从 56G 升级到 112G 以太网 PHY,新的机架单元设计预计将开始保留 x4/x8 端口这种选择 – 使端口带宽翻倍,达到 400G/800G。
|
运行要求 |
早期部署 |
主流部署 |
CPU 加速器结构 |
PCIe 4.0 |
PCIe 5.0 /CXL 2.0 |
PCIe 6.0 /CXL 3.0 |
系统互连 |
100GbE,带四通道 25G PHY |
|
|
ToR 交换机 |
12.8T |
25.6T |
51.2T |
表 1:HPC 网络组件和互连的比较
采用 QSFP-DD 外形尺寸的新型 400G/800G 光模块设计,其目的在于符合 MSA(多源协议)标准所要求的颇具挑战性的 14W 功耗预算。要实现这个目标,需要对光学 DSP SoC 使用经过功耗优化的 VSR 电气接口。112G-VSR 规范定义了适用于芯片到模块接口的 15dB 通道,而 LR PHY 则要求使用具有两个连接器的 28dB 通道。
与 LR 规范相比,VSR 通道的较低通道损耗目标使 SerDes 设计人员能够通过专用架构提供更好的总体功耗效率。
数据路径中的每次额外串行/解串不仅会增加数据传输的功耗,而且还需要额外功耗来进行系统冷却。这迫使系统设计人员通过部署具有 112G VSR/LR PHY 的模块来探索使用和不使用重定时器的实现方案。图 2 显示了一种具有代表性的实现方式,其中通过部署与 VSR 光模块内嵌的重定时器来启用更长的交换机到端口链路。或者,尽管 LR PHY 的功耗高于 VSR PHY,但 112G LR PHY 具有额外的数字信号处理均衡能力,可能无需使用重定时器。
图 2:使用重定时器和 LR/VSR PHY 的实现选择
包括深度技术文章、白皮书、视频、即将举行的网络研讨会、产物公告等等。
ToR 交换机之间连接始终通过光链路实现,而机架内链路则通过可插拔模块和 DAC、ACC 实现。随着 112G 以太网 PHY 的部署,业界开始探索如何使用多个电气接口,以节省 SerDes、光学引擎和重定时器的总体功耗。表 2 总结了下一代电光链路的新兴实现方案。
表 2:HPC 数据中心中的下一代电光链路
CEI-112G-LR-PAM4 规定 112 Gb/s 芯片间 PAM4 电气接口,以使包括两个连接器在内的奈奎斯特频率损耗小于 28 dB。112G LR SerDes 有望与所有这些通道配合使用,并提供 1e-4 的 PHY 级 BER。协议层的前向纠错 (FEC) 有望将 BER 从 1e-4 提高到 1e-12 或 1e-15。
随着系统部署的进步,实施者开始考虑 112G SerDes 的 LR Max 方案,以增加系统设计的裕量。表 3 显示了 LR 通道中每个组件的典型值和最大值。
表 3:112G SerDes LR 和 LR Max 的新兴要求
使用 Megatron 材料、其中两个线卡都有 9 英寸迹线的正交通道可被视为典型的实施方式,然而,迹线长度、封装损耗和 PCB 材料选择会改变通道的损耗、插入损耗偏差 (ILD) 和反射。图 3 显示了各种通道的损耗情况。
图 3:HPC LR 通道的各种损耗情况
虽然目前没有适用于 LR Max 的标准,但值得注意的是,行业对额外裕量的需求引发了对 LR Max SerDes 架构的需求。接收器均衡方面的创新 DSP 技术 — 例如,LR Max 接收器中的 MLSD(如图 4 所示) — 以牺牲边际功率和延迟为代价提供了具有吸引力的实施方案。
图&苍产蝉辫;4:具有 MLSD 的自适应 DSP,用于实现 LR Max 均衡
HPC 数据中心的网络基础架构在不断发展,使得百亿亿次级计算成为现实 — 从 100G 提高到 200G/400G 和 800G。新型电光接口(例如共封装光学器件、近封装光学器件和带线性接口的可插拔光学器件)提供了多种选择来优化功耗、延迟和性能。新思科技提供集成的 112G 以太网 PHY IP,极短距离 (XSR)、XSR+、线性、超短距离 (VSR) 和 UCIe PHY 可以实现电气接口。适用于 LR 和 LR Max 通道的 草榴社区 112G 以太网 PHY 可满足机架内 DAC/ACC 链路的额外余量需求。
深度技术文章、白皮书、视频、网络研讨会、产物公告等等。