HBM2E 和GDDR6: AI内存解决方案

网络与存储 时间:2020-09-29来源:电子产品世界


前言

人工智能/机器学习(AI/ML)改变了一切,影响着每个行业并触动着每个人的生 活。人工智能正在推动从5G到物联网等一系列技术市场的惊人发展。从2012年到 2019年,人工智能训练集增长了30万倍,每3.43个月翻一番,这就是最有力的证 明。支持这一发展速度需要的远不止摩尔定律所能实现的改进,摩尔定律在任何情况下都在放缓,这就要求人工智能计算机硬件和软件的各个方面都需要不断的快速改进。

image.png

从2012年至今,训练能力增长了30万倍

内存带宽将成为人工智能持续增长的关键焦点领域之一。以先进的驾驶员辅助系统(ADAS)为例。第3级及更高级别系统的复杂数据处理需要超过200 GB/s 的内存带宽。这些高带宽是复杂的AI/ML算法的基本需求,在道路上自驾过程中这些算法需要快速执行大量计算并安全地执行实时决策。在第5级,即完全自主驾驶,车辆能够独立地对交通标志和信号的动态环境作出反应,以及准确地预测汽车、卡车、自行车和行人的移动,将需要巨大的内存带宽。随着新一代AI/ML加 速器和专用芯片的快速发展,新的内存解决方案,如高带宽内存(HBM、HBM2 、HBM2E)和GDDR6 SDRAM(GDDR6)渐被采用来提供所需的带宽。

image.png

在为AI/ML应用程序所需而在HBM2E(最新一代HBM)和GDDR6之间做选择时,设计者必须考虑许多权衡和关键指标,包括成本、功率、容量和实现复杂性。在本白皮书中,我们将探讨HBM2E和GDDR6的优点和设计注意事项。我们还将强调每个内存在整个AI/ML架构中的适用性。最后,我们将讨论Rambus的HBM2E和GDDR6接口解决方案,它们可以用来实现一个完整的内存子系统。

GDDR6 和HBM2E 提供了不同的优点和设计权衡

image.png

image.png

GDDR6 内存系统四个16Gbps x32 GDDR6 DRAMs

第一部分:HBM2E 内存

高带宽内存(HBM)于2013年推出,是一种高性能3D堆栈SDRAM构架。与前一代产品一样,HBM2为每个堆栈包含最多8个内存芯片,同时将管脚传输速率翻倍,达到2 Gbps。HBM2实现每个封装256GB/s的内存带宽(DRAM堆栈),采用HBM2规格,每个封装支持高达8GB的容量。

2018年末,JEDEC宣布推出HBM2E规范,以支持增加的带宽和容量。当传输速率上升到每管脚3.6Gbps时,HBM2E可以实现每堆栈461GB/s的内存带宽。此外,HBM2E支持12个DRAM的堆栈,内存容量高达每堆栈24 GB。

image.png

HBM2E 内存系统单个2Gbps HBM2E设备

所有版本的HBM都以相对较低的数据传输速率运行,但通过采用极宽的接口实现了非常高的带宽。具体地说,每一个运行速度高达3.6Gbps的HBM2E堆栈通过1024个数据“线”的接口连接到它的相关处理器。通过命令和地址,线的数量增加到大约1700条。这远远超出了标准PCB所能支持的范围。因此,硅中介层被采用作为连接内存堆栈和处理器的中介。与SoC一样,精细数据走线可以在硅中介层中以蚀刻间隔的方式实现,以获得HBM接口所需数量的数据线数。

QQ浏览器截图20200929173024.png

单一DRAM堆栈的HBM2E内存系统

HBM2E 和GDDR6: AI内存解决方案

HBM2E提供了达成巨大内存带宽的能力。连接到一个处理器的四块HBM2E内存堆栈将提供超过1.8 TB/s的带宽。通过3D堆叠内存,可以以极小的空间实现高带宽和高容量需求。进一步,通过保持相对较低的数据传输速率,并使内存靠近处理器,总体系统功率得以维持在较低水位。

采用HBM的设计的代价是增加复杂性和成本。中介层是一个附加元件,必须进行设计、特性化和制造。与制造传统DDR型内存(包括GDDR)的巨大容量和制造经验相比,3D堆叠内存的出货量显得微不足道。最终的结果是,采用和制造HBM2E成本高于GDDR6。

出色的带宽、容量,低功耗的延迟、极小的尺寸空间,使HBM2E内存成为AI训练硬件的最佳选择。

然而,对于人工智能训练应用,HBM2E的优点使其成为一个更好的选择。它的性能非常出色,所增加的采用和制造成本可以透过节省的电路板空间和电力相互的缓解 。在物理空间日益受限的数据中心环境中,HBM2E紧凑的体系结构提供了切实的好处。它的低功率意味着它的热负荷较低,在这种环境中,冷却成本通常是几个最大的运营成本之一。

总而言之,HBM2E为系统设计者提供了极高的带宽能力和最佳的功率效率。虽说采用HBM2e系统的因设计复杂性和空间的增加,而更具挑战,但是板材面积的系统冷却支出的节省却是无与伦比。对于人工智能训练,HBM2E是一个理想的解决方案。这一事实是基于采用HBM2E强大成功记录之上的,例如已被采用人工智能的处理器,如英伟达的Telsla A100和谷歌第二代TPU。

image.png

第二部分:GDDR6 内存

图形DDR SDRAM(GDDR SDRAM)最初是20多年前为游戏和显卡市场设计的。在这段时间内,GDDR经历了几次重大变革,最新一代GDDR6的数据传输速率为16Gbps。GDDR6提供了令人印象深刻的带宽、容量、延迟和功率。它将工作电压从1.5V降低到1.35V以获得更高的功率效率,并使GDDR5内存的数据传输速率(16比8 Gbps)和容量(16比8 GB)翻了一番。Rambus已经演示了一个运行速度为18 Gbps的GDDR6接口,显示这种内存架构还有额外的增长空间。

与HBM2E不同,GDDR6 DRAM采用与生产标准DDR式DRAM的大批量制造和组装一样的技术。更具体地说,GDDR6采用传统的方法,通过标准PCB将封装和测试的DRAMs与SoC连接在一起。利用现有的基础架构和流程为系统设计者提供了 熟悉度,从而降低了成本和实现的复杂性。

image.png

带有四个 DRAM的 GDDR6内存系统

GDDR6内存出色的性价比,建立在经过时间考验的制造流程之上,使其成为人工智能推理应用的绝佳选择。

与HBM2E宽而慢的内存接口不同,GDDR6接口窄而快。两个16位宽通道(32条 数据线)将GDDR6 PHY连接到相关的SDRAM。GDDR6接口以每针16 Gbps的速度运行,可以提供64 GB/s的带宽。回到我们之前的L3汽车示例,GDDR6内存系 统以连接四个DRAM设备为例,带宽可以达到200 GB/s。

采用GDDR6的主要设计挑战也来自于它最强大的特性之一:速度。在较低的电压条件,16 Gbps的信号速度下,保持信号完整性需要大量的专业经验知识。设计人员面临更紧的时序和电压裕度量损失,这些损失来源与影响都在迅速增加。系 统的接口行为、封装和电路板需要相互影响,需要采用协同设计方法来保证系统的信号完整性。

总的来说,GDDR6内存的优异性能特性建立久经考验的基础制造过程之上,是人工智能推理的理想内存解决方案。其出色的性价比使其适合在广泛的边缘网络和物联网终端设备上大量采用。

image.pngimage.pngimage.png

GDDR6提供了最佳的内存设计和使用效率

L3 ADAS 内存系统实施实例

可能没有比ADAS更苛刻的“物联网”人工智能推理应用程序。在一个负责保护生命和财产的体系中,认证标准必然很高。最终的结果是,经过路试的内存架构,如LPDDR(拥有数十亿的移动电话采用)和GDDR6已经在早期的ADAS系统中得到了实现。 如上图所示,LPDDR4/5内存架构可以达到L3-ADAS系统200GB/s的带宽阈值, 但这需要大量的DRAM设备来实现。

从设计和利用的角度来看,GDDR6的效率要高得多,只需要不到一半的内存颗粒数量就能达到所需的系统带宽。随着带宽需求的增加,以满足L4和L5 ADAS的需求,GDDR6成为唯一可行的替代方案。

如下图所示,在L4 ADAS中,带宽要求提高到300 GB/s。如果LPDDR5接口以 6.4 Gbps的速度运行,则需要12个DRAM设备才能达到这一目标。SoC的芯片前 沿邊将被内存接口给全盘占据而令SOC版图设计变复杂而不切实际。运行速度为 16 Gbps的GDDR6仅用5个内存颗粒就可以提供超过300 GB/s的带宽,而对于L5 ADA,只需 8个内存颗粒就可以达到500 GB/s以上的带宽。

image.png

随着更高级别的ADAS,内存带宽需求迅速增长

ADAS记忆体带宽要求

总之,GDDR6提供了带宽、容量、能效、可靠性和性价比的完美结合。有了像 Rambus这样值得信赖的合作伙伴,SoC设计人员可以实现所有这些好处,同时解决因16Gbps或更高速度运行带来的SI挑战。

image.png

第三部分:HBM2E 和GDDR-AI的合作伙伴

鉴于AI/ML的需求分流的特性,内存的选择取决于应用:训练还是推理。HBM2E 和GDDR6这两种高带宽内存可以起到至关重要的作用,而不是“或”的问题,而 是“和”的问题之一。

对于训练来说,带宽和容量是至关重要的需求。特别是考虑到训练集的规模正以每3.43个月翻一番的速度增长,正如我们前面讨论的那样。现行训练工作负载在多个服务器上运行,以提供所需的处理能力,对虚拟化处理有翻天覆地的改变。考虑到通过训练创造的价值,并鉴于强大的“提早上市”诱因,其驱动尽快完成训练计算的需求。此外,在数据中心运行的训练应用程序因电源和空间所致的限制越来越大,因此有一个提供更佳能效和更小尺寸的解决方案是一大加分。

考虑到所有这些需求,HBM2E是AI训练硬件的理想内存解决方案。它提供了出色的带宽和容量能力:461 GB/s的内存带宽和24 GB的容量,以单个12 DRAM 的 HBM2E堆栈即能实现。由于接口速度低和处理器距离近,它的3D结构能以非常紧凑的尺寸和较低的功耗提供这些特性。

在推理的情况下,带宽和延迟对于实时操作的需求至关重要。随着推理被采用在广泛的边缘和物联网终端设备上,其将比位于数据中心核心的实施成本更敏感。 此外,对于ADAS,内存将需要依在道路测试技术以及制造工艺需求来建造,以满足严格的认证要求。随着5G的不断推出,将有越来越多的人工智能驱动的、不受约束的设备执行复杂的推理。

对于人工智能推理这一日益具有挑战性的领域,GDDR6是一个理想的解决方案。它可以单个或少量的DRAM颗粒提供出色的带宽:在16 Gbps的数据速率下,每个颗粒有64GB/s的内存带宽。基于成熟的制造工艺,它提供了适合大量生产的性价比特性。

结果是,AI/ML并不是单一的,其训练和推理都需要根据其特定需求定制的内存解决方案。HBM2E和GDDR6分别满足了训练和推理的需求,提供了这些应用程 序所需的一系列长处。正如前面讨论的一样,HBM2E与GDDR6呈现不同设计和 实施的挑战。但是有了像Rambus这样值得信赖的合作伙伴的解决方案,这些内存的好处就可以很容易地实现。在下一节中,我们将回顾Rambus提供的HBM2E 和GDDR6接口解决方案。

image.png

第四部分:Rambus HBM2E 内存接口解决方案

针对高带宽和低延迟进行了优化,Rambus HBM2E接口提供了最好的性能与最小面积尺寸的特点和高效率。该接口由一个与PHY共同验证的数字控制器组成,包括一个完整的HBM2E内存子系统。

Rambus HBM2E接口完全符合JEDEC JESD235B标准。它支持每个数据引脚高达 3.6 Gbps的数据传输速率。该接口具有8个独立的通道,每个通道包含128位,总 数据宽度为1024位。由此每个堆栈支持的带宽是461GB/s,每个堆栈由2、4、8或 12个DRAMs组成。

该接口是为一个2.5D系统设计的,它有一个用于在3D-DRAM堆栈和SoC上的PHY之间的中介层由提供信号绕线。这种信号密度和堆积尺寸的组合需要特殊的 设计考虑。为了便于实施和提高了设计的灵活性,Rambus对整个2.5D系统进行完整的信号和功率完整性分析,以确保所有信号、功率和散热要求都得到满足。 

其他主要功能包括:

●   共同验证过的PHY和数字控制器

●   支持速度范围: 0.5, 1.0, 1.5, 1.6, 1.8, 2.0, 2.4, 3.0, 3.2, 3.6 Gbps

●   8个通道和16个伪通道

●   支持2、4、8或12个DRAM堆栈

●   支持所有标准HBM2E通道密度(4、6、8、12、16、24 Gb)

●   内存控制器或PHY可以是ASIC接口主机(PHY独立模式)

●   可选低功率运行状态

●   可编程输出阻抗

●   用于链路修复的引脚可编程支持

●   输出阻抗的ZQ校准

●   IEEE 1500测试支持

●   自主测试支持

●   SSO降噪

●   微凸块间距DRAM间距間距匹配

●   采用13层或15层金属叠层

●   东西向(PHY可放置在die角落)

●   状态观察寄存器接口

●   具有特色的LabStation™软件开发环境,有效隔离问题,快速系统点亮、 校正和验证

image.png

HBM2E内存接口子系统示例

第五部分:Rambus GDDR6 内存接口解决方案

Rambus GDDR6接口专为性能和功率效率而设计,支持AI/ML和ADAS推理高带 宽与低延迟要求。它由一个经共同验证的PHY和数字控制器组成,提供一个完整的GDDR6内存子系统。Rambus GDDR6接口完全符合JEDEC GDDR6 JESD250标 准,每个引脚支持高达16 Gbps。GDDR6接口支持2个通道,每个通道有16位, 总数据宽度为32位。Rambus GDDR6接口每针16 Gbps,提供带宽为64 GB/s。

Rambus直接与客户合作,提供完整的系统信号和电源完整性(SI/PI)分析,创建优化的芯片布线版图。客户收到一个硬核解决方案与全套测试软件可以快速启动,定性和调试。

其他主要特性包括

●   经共同验证的PHY和数字控制器

●   IP核的灵活交付(符合ASIC/SoC版图 布线 要求)

●   支持速度范围:12、14和 16 Gbps。Rambus展示了18 Gbps的未来可扩展性。

●   两个16位通道

●   支持GDDR6 SGRAM

●   内存控制器或PHY可以是ASIC接口主机(PHY独立模式)

●   可选低功率运行状态

●   可编程驱动器/终端阻抗值

●   驱动器/终端阻抗校准

●   建置测试支持

●   采用13层金属叠层

●   状态观察寄存器接口

●   具有特色的LabStation™软件开发环境,有校隔离问题,快速系统点亮校正和验证

image.png

GDDR6 内存接口子系统示例

总结

AI/ML的发展速度非常快。训练能力正以每年10倍的速度增长,推动着计算机硬 件和软件各方面的快速发展。与此同时,人工智能推理正在网络边缘和广泛的物联网设备中采用,包括在汽车/ADAS中。训练和推理有其独特的应用,定制内存解决方案可以满足的需求,HBM2E是前者的理想选择,GDDR6是后者的理想选择。设计师可以通过与Rambus合作来克服这些架构中固有的设计挑战,从而实现这些高性能内存的长处。Rambus提供全面且现成的HBM2E和GDDR6内存接口解决方案,可集成到AI/ML训练和推理SoCs中。

image.png


关键词: ADAS ML DRAM 内存

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章


用户评论

请文明上网,做现代文明人
验证码:
查看电脑版