英伟达将在CES发布Vera Rubin的NVL72 AI超级计算机——承诺推理性能提升5倍,且每枚代币成本降低10倍,预计将在2026年下半年发布

在CES 2026,人工智能无处不在,而英伟达GPU则是不断扩展的人工智能领域的核心。今天,在CES主题演讲中,首席执行官黄仁明分享了他如何让公司在人工智能革命中保持领先地位的计划,因为这项技术远远超越了聊天机器人,进入机器人、自动驾驶车辆以及更广泛的物理世界。
首先,黄氏正式发布了 Vera Rubin,这是英伟达下一代人工智能数据中心机架级架构。Rubin是公司所谓的“极端联合设计”成果,涵盖六种芯片:Vera CPU、Rubin显卡、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4数据处理单元和Spectrum-6以太网交换机。这些基本组件汇聚在一起,造就了Vera Rubin NVL72机架。
对AI计算的需求无穷无尽,每一代Rubin显卡都承诺在这一代中实现更多:NVFP4数据类型下推理性能可达50 PFLOPS,是Blackwell GB200的5倍;NVFP4训练性能可达35 PFLOPS,是Blackwell的3.5倍。为这些计算资源提供能量,每个Rubin GPU套件配备八组HBM4内存,提供288GB容量和22 TB/s带宽。
每GPU计算只是AI数据中心的一个构建模块。随着领先的大型语言模型从密集的架构(激活所有参数以生成输出词)转变为仅激活部分可用参数的专家混合(MoE)架构,这些模型的规模化变得相对高效。然而,模型内专家之间的通信需要大量的节点间带宽。
Vera Rubin 推出了 NVLink 6 用于扩展网络,将每GPU结构带宽提升至3.6 TB/s(双向)。每台NVLink 6交换机拥有28 TB/s带宽,每个Vera Rubin NVL72机架配备九台此类交换机,总扩展带宽为260 TB/s。
Nvidia Vera CPU 实现了 88 个定制的 Olympus Arm 核心,采用 Nvidia 称之为“空间多线程”的技术,最多可支持176个线程。用于将Vera CPU与Rubin显卡一致连接的NVLink C2C互连带宽翻倍,达到1.8 TB/s。每个 Vera CPU 最多可寻址 1.5 TB 的 SOCAMM LPDDR5X 内存,内存带宽最高可达 1.2 TB/s。
为了将Vera Rubin NVL72机架扩展为每台8个机架的DGX SuperPod,英伟达推出了两款Spectrum-X以太网交换机,配备同封装光学器件,全部由其Spectrum-6芯片组装而成。每颗Spectrum-6芯片提供102.4 TB/s带宽,英伟达将通过两款交换机提供该带宽。
SN688 拥有 409.6 Tb/s 带宽,支持 512 个 800G 以太网端口或 2048 个 200G 端口。SN6810 提供 102.4 Tb/s 带宽,可分流至 128 个 800G 端口或 512 个 200G 以太网端口。这两款交换机均采用液冷技术,英伟达声称它们更节能、更可靠,且运行时间更优,推测是针对缺乏硅光子技术的硬件。
随着上下文窗口数量增长到数百万个令牌,英伟达表示,对保存与AI模型交互历史的关键值缓存的作成为推理性能的瓶颈。为了突破这一瓶颈,英伟达利用其下一代BlueField 4 DPU打造了它所谓的新内存层级:Inference上下文内存存储平台。
公司表示,这一存储层旨在实现关键值缓存数据在AI基础设施间的高效共享和重用,从而提升响应速度和吞吐量,并实现代理型AI架构的可预测且节能的扩展性。
Vera Rubin首次将Nvidia可信执行环境扩展到整个机架,通过保护芯片、结构和网络层级,Nvidia表示这对于确保AI前沿实验室珍贵的尖端模型的保密和安全至关重要。
总的来说,每台Vera Rubin NVL72机架提供3.6 exaFLOPS的NVFP4推理性能,2.5 exaFLOPS的NVFP4训练性能,连接Vera CPU的54 TB LPDDR5X内存,以及20.7 TB的HBM4,提供1.6 PB/s的带宽。
为了保持机架的生产力,英伟达强调了机架层面的多项可靠性、可用性和可维护性(RAS)改进,例如无线模块化托盘设计,使组件更换速度比之前的NVL72机架更快;NVLink弹性提升,实现零停机维护;以及第二代RAS引擎实现零停机健康检查。
所有这些原始的计算和带宽表面上令人印象深刻,但对英伟达合作伙伴来说,在考虑未来大规模容量投资时,拥有成本的整体情况可能更为重要。Nvidia表示,Vera Rubin训练MoE模型所需的GPU数量仅为Blackwell的四分之一,Rubin还能将MoE推断的代币成本降低多达10倍,涵盖广泛型号。如果我们反过来看,这表明Rubin还能提升训练吞吐量,并在同一机架空间内交付更多代币。
英伟达表示,他们已经从晶圆厂取回了用于构建Vera Rubin NVL72系统的全部六颗芯片,并且对其运行的工作负载性能感到满意。公司预计将在2026年下半年加快Vera Rubin NVL72系统的批量生产,这一预测与其以往关于Rubin供应情况的预测保持一致。
关键词: CES 2026 英伟达 Vera Rubin NVL72 AI超级计算机
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码