英伟达可能正在为中国市场准备 B30A 加速器
英伟达据报道正在为中国市场开发基于 Blackwell 架构的新 AI 加速器——用于 AI 训练的 B20A 和用于 AI 推理的 RTX 6000D——这些产品将超越现有的 HGX H20 和 L20 PCIe 产品 ,但仍将符合美国出口管制, 路透社援引了解情况的消息人士称。如果信息准确,那么中国客户可能会得到两款性能与上一代旗舰相当相当的有力的产品。
据称,Nvidia B30A 基于 Blackwell Ultra 微架构,但仅使用一个计算芯片,提供约 B300 性能的一半和其 HBM3E 内存容量(即 144 GB HBM3E)的 50%。此前,该产品据传被称为 B300A,并面向全球市场,而不仅限于中国。由于 B30A 据传是一款面向中国的 SKU,因此 Nvidia 可能对此部分引入某些性能限制。"我们评估各种产品以规划我们的路线图,以便在政府允许的范围内做好准备进行竞争",Nvidia 发言人向 Tom's Hardware 发表声明时表示。"我们提供的所有产品都经过相关当局的完全批准,并专为有益的商业用途而设计。"
如果信息准确且 GPU 将达到报道的性能目标,那么它不仅将超越 HGX H20,实际上还将击败上一代旗舰 H100。该设备还将配备 NVLink 以实现扩展连接,但尚不清楚 Nvidia 是否会通过减少 NVLink 的数量来限制构建机架级解决方案或大型集群。
GPU | B30A(传闻) | HGX H20 | H100 | B200 | B300(超) |
封装 | CoWoS-S | CoWoS-S | CoWoS-S | CoWoS-L | CoWoS-L |
每封装浮点运算性能达 FP4 PFLOPs | 7.5 | - | - | 10 | 15 |
每封装 FP8/INT6 浮点运算性能 | 5 | 0.296 | 2 | 4.5 | 10 |
每封装 INT8 浮点运算性能 | 0.1595 | 0.296 | 2 | 4.5 | 0.319 |
每包 BF16 PFLOPs | 2.5 | 0.148 | 0.99 | 2.25 | 5 |
每包 TF32 PFLOPs | 1.25 | 0.074 | 0.495 | 1.12 | 2.5 |
每包 FP32 PFLOPs | 0.0415 | 0.044 | 0.067 | 1.12 | 0.083 |
每包 FP64/FP64 张量 TFLOPs | 0.695 | 0.01 | 34/67 | 40 | 1.39 |
Memory | 144 GB HBM3E | 96 GB HBM3E | 80 GB HBM3 | 192 GB HBM3E | 288 GB HBM3E |
内存带宽 | 4 TB/s | 4 TB/s | 3.35 TB/s | 8 TB/s | 8 TB/s |
HBM Stacks | 4 | 4 | 5 | 8 | 8 |
NVLink | ? | ? | NVLink 4.0, 50 GT/s | NVLink 5.0, 200 GT/s | NVLink 5.0, 200 GT/s |
GPU TDP | 700W (?) | 400W | 700W | 1200W | 1400W |
为英伟达构建 B30A(或 B300A)应该相对容易,因为一个计算芯片和四个 HBM3E 内存堆栈可能可以使用台积电成熟的 CoWoS-S 技术进行封装(至少根据半分析的说法是这样),而这种技术恰好比 B200 和 B300 处理器使用的 CoWoS-L 更便宜,后者包含两个计算芯片和八个 HBM3E 模块。
除了 B30A 之外,据报道英伟达还计划推出一款 RTX 6000D 产品,该产品专为 AI 推理设计,也可能用于专业图形应用。与完整的 RTX 6000 相比,这款产品的规格将被缩减。路透社表示,其内存带宽将约为 1.398 TB/s,但细节尚不清楚。
预计英伟达的客户将在 9 月获得 B30A 和 RTX 6000D 的首批样品,因此如果美国政府批准这些产品,英伟达将能够在 2025 年底或 2026 年初开始出货商用 B30A 模块和 RTX 6000D 显卡。
关于英伟达为中国市场推出新人工智能加速器的传闻,是在美国总统唐纳德·特朗普暗示只要满足一项新安排——即英伟达和 AMD 将向美国政府支付其中国收入 15%——他可能会允许在中国销售下一代英伟达部件之后传出的。然而,立法者中的两党反对意见仍然持续质疑,即使是经过削减版本的先进人工智能硬件是否应该对中国公司开放。

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码