AWS Graviton5为服务器CPU带来了不同的平衡

智能计算 时间:2025-12-09来源:

1765268734269514.png

自两年前为两插槽系统推出Graviton4处理器以来,我们一直期待Annapurna Labs团队能带来新的Arm服务器CPU设计,他们负责为亚马逊网络服务开发CPU、XPU、DPU和扩展交换机。

Graviton4基于“Demeter”V2核心,与Nvidia“Grace” CG100处理器类似,是AWS开发的首款具备NUMA集群功能的服务器CPU,允许两个CPU共享内存,向作系统呈现单一内存空间和计算复合体。但正如AWS计算与机器学习服务副总裁Dave Brown在re:Invent 2025大会开幕主题演讲中所解释的,两个处理器在一组NUMA链路共享内存,给应用带来了大量延迟,Graviton4核心无法使用足够的L3缓存作为DRAM缓存也同样存在。这以及其他因素,使得应用运行比你预期的慢,毕竟他们拥有192个Neoverse V2核心支持。

因此,Graviton5目前已在部分AWS客户中进行技术预览,Annapurna Labs团队似乎放弃了NUMA,将192个Arm核心集中在一个插槽上。现在瓶颈又回到了内存和内存带宽的平衡,考虑到这192个核心,因为相比我们推测的“波塞冬”新宇宙V3核心,这个单一Graviton5插槽内的内存容量只有一半多一点,可能只有一半多一点。(有关Arm新宇宙核心和芯片路线图的更多信息,请参见Arm Neoverse路线图带来CPU设计,但没有大胖GPU。)

当然,我们认为没有什么能阻止AWS开发双套接字的Graviton5 NUMA版本,如果客户需要这样的配置,这可能最终实现。(我们认为有些人会这样做。)

Brown在Graviton5的进给和转速方面并未给出太多。我们知道Graviton5在单个插槽中有192个核心,是Graviton4 CPU核心的两倍,但性能仅提升约25%。我们还知道Graviton5每个核心的L3缓存是Graviton4的2.67倍,每颗芯片的L3缓存是Graviton4的5.3倍。我们认为Graviton5采用了台湾积电路制造有限公司的3纳米工艺,与目前大量发货的UltraServer集群中的Tranium3 XPU相同。

Brown还简要展示了Graviton5的方框图,我们很快拍下了,但由于摄像机距离舞台背景屏幕很远,画面仍然模糊:

1765268796434273.png

如果你眯着眼看,你会看到芯片中央有96对Arm核心,中间有网状互连。芯片顶部有四个PCI-Express 6.0控制器,底部还有四个,总共应有96条通道,每颗PCI-Express控制器在十二条通道下实现2.84 TB/秒的全双工速度。

在芯片左右两侧各有六个DDR5内存控制器,整个Graviton5插槽共有十二个DDR5内存控制器。如果AWS使用运行在6.4 GHz的DDR5-6400内存,单个Graviton5芯片将拥有614.4 GB/秒的内存带宽,比Graviton4提升14.3%。这看起来不多,正如我们所期望的,AWS实际上使用了DDR5-7200内存配合Graviton5,插槽中带宽为691.2 GB/秒,相比Graviton4的537.6 GB/秒提升了28.6%。然而,两个Graviton4相比单个Graviton5的内存容量是两倍,带宽也多出55.6%,因此在将192个核心移回单一插槽时,有些东西会被放弃。

当我们幻想AWS如何利用Graviton5的主存时,我们希望它能在插槽上推送最多16个控制器,这样在6.4 GHz时能提供819.2 GB/秒的速度。相反,AWS正在提升内存速度,Graviton5将支持运行8.4 GHz的DDR5-8400内存,单插槽实现806.4 GB/秒,占双芯片Graviton4总计1,075.2 GB/秒的75%。

Brown 完全没有提及 Graviton5 核心,但我们后来确认该核心基于 Poseidon Neoverse V3 核心,实现了 Arm-V9.2-A 的增强。由于Brown说Graviton5核心比Graviton4核心多25%,我们以为它是一个大幅降低齿轮的192核芯片,主频仅有1.75 GHz。但事实证明,AWS谈论的是两插槽的Graviton4机器,而Graviton5的单插槽机器,现在很明显,NUMA的Graviton4实现只是过渡方案,直到Graviton5芯片进入市场。

Poseidon V3核心每个核心允许2MB或3MB的L2缓存,我们选择了表中较宽的那个;实际上是2MB。我们认为L1指令缓存和数据缓存在每个核心内将各自保持在64 KB内存。

以下是六种不同Graviton芯片在进给和转速上的表现:

1765268826136665.png

在我们估算时,我们认为Graviton5复合体大约有1320亿个晶体管,在我们最初假设的1.75 GHz频率下消耗约180瓦,在我们推测的实际频率3.1 GHz下大约消耗650瓦。

我们设想Graviton5不仅配备PCI-Express 6.0控制器,还有带有NVLink Fusion和UALink接口的变体,可以直接连接GPU和XPU计算引擎以共享内存。

Brown表示,使用Graviton5并面向通用工作负载的M9g实例目前处于预览阶段。面向计算密集型作业的C9g实例和针对内存密集型作业的R9g实例预计将在2026年发布。

关键词: AWS Graviton5 服务器CPU AWS

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版