英伟达计划到 2026 年使用光在 AI GPU 之间进行通信

智能计算 时间:2025-08-25来源:Tom‘s Hardware

Nvidia(图片来源:英伟达)

在 AI GPU 集群之间传输通信的极端需求正在推动使用光进行跨网络层的通信。今年早些时候,英伟达概述了其下一代机架级 AI 平台将使用硅光子学互连和共封装光学(CPO)来实现更高的传输速率和更低的功耗。在今年的 Hot Chips 会议上,英伟达发布了一些关于其下一代 Quantum-X 和 Spectrum-X 光子互连解决方案的额外信息,以及它们将在 2026 年到来。

Nvidia 的路线图可能会紧密跟随台积电的 COUPE 路线图,该路线图分为三个阶段。第一代是为 OSFP 连接器提供的光引擎,提供 1.6 Tb/s 的数据传输速度,同时降低功耗。第二代进入 CoWoS 封装,带有集成光学,在主板级别实现 6.4 Tb/s。第三代旨在处理器封装内实现 12.8 Tb/s,并旨在进一步降低功耗和延迟。


为什么是 CPO?

在大规模 AI 集群中,数千个 GPU 必须作为一个系统运行,这给这些处理器之间的互连方式带来了挑战:不再是每个机架都有自己的 Tier-1(机架顶部)交换机,通过短铜缆连接,而是将交换机移到机架的末端,以在多个机架之间创建一致的、低延迟的织物。这种搬迁大大增加了服务器与其第一个交换机之间的距离,这使得在 800 Gb/s 这样的速度下铜缆不切实际,因此几乎每个服务器到交换机和交换机到交换机的链路都需要光连接。



Nvidia


(图片来源:Nvidia)

在这种环境下使用可插拔光模块会引入明显的限制:在这种设计中的数据信号会离开 ASIC,跨越电路板和连接器,然后才转换为光信号。这种方法会产生严重的电信号损失,在 200 Gb/s 通道上高达约 22 分贝,这需要复杂的补偿处理,并将每个端口的功耗增加到 30W(这反过来又需要额外的散热,并创造了潜在的故障点),随着 AI 部署规模的扩大,这种情况几乎让人难以忍受,根据英伟达的说法。


Nvidia


(图片来源:Nvidia)

CPO 通过将光转换引擎与交换 ASIC 集成在一起,规避了传统可插拔光模块的罚金,因此信号几乎立即耦合到光纤上,而不是在长距离电气走线上传输。结果,电气损耗减少到 4 分贝,每个端口的功耗降低到 9W。这种布局消除了许多可能失效的组件,并大大简化了光互连的实现。



英伟达声称,通过摆脱传统可插拔收发器并将光学引擎直接集成到交换硅中(感谢台积电的 COUPE 平台),它在效率、可靠性和可扩展性方面实现了非常显著的提升。据英伟达称,与可插拔模块相比,CPOs 的改进是巨大的:功率效率提高了 3.5 倍,信号完整性提高了 64 倍,由于活动设备更少,弹性提升了 10 倍,并且由于服务和组装更简单,部署速度大约提高了 30%。

英伟达将推出基于 CPO 的光互连平台,支持以太网和 InfiniBand 技术。首先,该公司计划在 2026 年初推出 Quantum-X InfiniBand 交换机。每个交换机将提供 115 Tb/s 的吞吐量,支持 144 个端口,每个端口运行在 800 Gb/s。该系统还集成了一个 ASIC,具有 14.4 TFLOPS 的片上网络处理能力,并支持英伟达的第四代可扩展分层聚合缩减协议(SHARP),以降低集体操作的延迟。这些交换机将采用液冷散热。




Nvidia


(图片来源:Nvidia)

同时,Nvidia 计划在 2026 年下半年将其 Spectrum-X Photonics 平台引入以太网,该平台将依赖于 Spectrum-6 ASIC,该 ASIC 将支持两个设备:SN6810,提供 102.4 Tb/s 的带宽,具有 128 个 800 Gb/s 的端口,以及更大型的 SN6800,可扩展到 409.6 Tb/s 和 512 个相同速率的端口。两者都使用液冷。


Nvidia


(图片来源:Nvidia)

Nvidia 设想其基于 CPO 的交换机将为规模更大、更复杂的生成式 AI 应用提供新的人工智能集群。由于使用 CPO,这些集群将消除数千个离散组件,提供更快的安装、更简单的维护和每连接更低的功耗。因此,使用 Quantum-X InfiniBand 和 Spectrum-X Photonics 的集群在开机时间、首次令牌时间和长期可靠性等指标上有所改进。

英伟达强调,共封装光学器件并非可选的增强功能,而是未来人工智能数据中心的结构性要求,这意味着公司将将其光学互连定位为超越竞争对手(如 AMD)机架级人工智能解决方案的关键优势之一。当然,这也是为什么 AMD 收购了 Enosemi。


前方的道路

关于英伟达硅光子计划的一个重要注意事项是,其发展紧密与台积电的 COUPE(紧凑型通用光子引擎)平台的发展相一致,该平台将在未来几年内不断发展,从而也将改进英伟达的 CPO 平台。台积电的第一代 COUPE 是通过使用公司的 SoIC-X 封装技术将一个 65 纳米的电子集成电路(EIC)与一个光子集成电路(PIC)堆叠在一起而构建的。

TSMC 的 COUPE 路线图分为三个阶段。第一代是一款用于 OSFP 连接器的光引擎,提供 1.6 Tb/s 的数据传输速度,同时降低功耗。第二代进入 CoWoS 封装,并采用共封装光学技术,在主板层面实现 6.4 Tb/s。第三代旨在处理器封装内实现 12.8 Tb/s,并致力于进一步降低功耗和延迟。


关键词: 英伟达 硅光子 GPU AI

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版