3nm赛道,挤满了ASIC芯片
最近,市场关注的两家 ASIC 企业都发布了自家的财报。
博通 2025 财年第一季度财报显示,营收 149.16 亿美元,同比增长 25%,净利润 55.03 亿美元,同比增长 315%。其中,第一季度与 AI 有关的收入同比增长 77% 至 41 亿美元。
Marvell 预计第一财季销售额约为 18.8 亿美元,同比增长 27%。其中,AI 业务收入达 7 亿美元左右,主要是亚马逊等客户定制 ASIC 等产品需求增长的带动。
ASIC,越发丰富
今年以来,大模型的更迭越发的激烈。DeepSeek 研究团队再放大招,公开 NSA 算法。同日,马斯克发布 Grok 3 模型,号称拳打 DeepSeek 脚踢 OpenAI。
DeepSeep 之风正盛,将全球科技产业的重心从训练推向推理阶段。由于 DeepSeek 是 MOE 模型,能够实现更低的激活比。算力、内存、互联原有平衡发生剧变,新算力架构机会再次进入同一起跑线。
这种条件下,定制化芯片 ASIC 似乎越来越适合 AI 时代。
ASIC 芯片的主要根据运算类型分为了 TPU、DPU 和 NPU 芯片,分别对应了不同的基础计算功能,也有不同的优势。
TPU
先来看 TPU。TPU 的核心是矩阵乘法单元,它采用脉动阵列架构,这意味着数据以类似心脏跳动的方式在芯片内流动。这种架构允许高度并行的乘法和加法操作,使得 TPU 能够在每个时钟周期内处理大量的矩阵运算。
如果把 TPU 比作一个工厂,这个工厂的任务是把两堆数字(矩阵)相乘。每个工人(脉动阵列的小格子)只需要做简单的乘法和加法,然后把结果传给下一个工人。这样,整个工厂就能高效地完成任务,而且速度比普通的工厂(比如 CPU 或 GPU)快很多。
TPU 的优势是能够高效处理大规模矩阵运算,支持神经网络的训练和推理任务。所以,更加适合用在数据中心的 AI 训练和推理任务,如自然语言处理、计算机视觉和语音识别。
DPU
其次来看 DPU。DPU 能够处理大量的网络数据包,包括接收、分类、转发和过滤等。它通过硬件加速引擎(如网络处理引擎)来加速网络操作,减少 CPU 在网络处理上的负载。
DPU 就像是一个快递中心,它负责接收包裹(数据),快速分拣,然后把包裹送到正确的地方。它有自己的小助手(加速器),这些小助手很擅长处理特定的任务,比如快速识别包裹的地址或者检查包裹是否完好。这样,DPU 就能让整个快递系统(数据中心)运行得更高效。
DPU 的优势是可以卸载 CPU 的部分任务,减少 CPU 的负担。优化了数据传输路径,从而提高系统的整体效率。所以,它的应用场景是数据中心的网络加速、存储管理、安全处理等。
NPU
再来看 NPU。NPU 是专门为神经网络计算设计的芯片,采用「数据驱动并行计算」的架构。它能够高效执行大规模矩阵运算,特别是卷积神经网络(CNN)中的卷积操作。
如果把 NPU 比作一个厨房,这个厨房有很多厨师(计算单元),每个厨师都能同时做自己的菜(处理数据)。比如,一个厨师负责切菜,一个厨师负责炒菜,另一个厨师负责摆盘。这样,整个厨房就能同时处理很多道菜,效率非常高。NPU 就是这样,通过并行处理,让神经网络的计算变得更快。
NPU 的优势就是执行 AI 任务时功耗较低,适合边缘设备。并且,专为神经网络设计,适合处理深度学习任务。所以,NPU 的应用场景是人脸识别、语音识别、自动驾驶、智能相机等需要进行深度学习任务的领域。
简而言之,TPU 适合深度学习、DPU 适合数据中心的数据管理、NPU 通过并行计算快速完成神经网络任务,适合各种 AI 应用。
最近,还出现了 LPU,一种专门为处理语言任务而设计的芯片。它的推出就是专门针对语言处理优化的架构和指令集,能够更高效地处理文本、语音等数据,从而加速大语言模型的训练和推理过程。
摩根士丹利预测 AI ASIC 的总可用市场将从 2024 年的 120 亿美元增长到 2027 年的 300 亿美元,期间英伟达的 AI GPU 存在强烈的竞争。
现在,在 ASIC 赛道上的玩家,已经越来越多。
拥挤的 ASIC 赛道
3nm ASIC 芯片的赛道上挤满了大厂。
亚马逊一直在致力于自研芯片以降低数据中心成本。
2022 年,AWS 发布了 Trainium 1 和 Inferentia 2 芯片。当时,Trainium1 在训练方面表现不是很好,更加适合 AI 推理工作。
之后,AWS 又发布了当前的 Trainium 2,采用 5nm 工艺。单个 Trainium 2 芯片提供 650 TFLOP/s 的 BF16 性能。Trn2 实例的能效比同类 GPU 实例高出 25%,Trn2 UltraServer 的能效比 Trn1 实例高三倍。
去年 12 月,亚马逊宣布要推出全新 Trainium3,采用的是 3nm 工艺。与上代 Trainium2 相比,计算能力增加 2 倍,能源效率提升 40%,预计 2025 年底问世。
据了解,在 AWS 的 3nm Trainium 项目中,世芯电子(Alchip)和 Marvell 展开了激烈的竞争。
世芯电子(Alchip)是第一家宣布其 3nm 设计和生产生态系统准备就绪的 ASIC 公司,支持台积电的 N3E 工艺。Marvell 则在 Trainium 2 项目中已经取得了显著进展,并有望继续参与 Trainium 3 的设计。
当前的竞争焦点在于:后端设计服务和 CoWoS 产能分配上。看谁能够在 Trainium 项目争取到更多的份额。
之前我们提到的 TPU,以谷歌的 TPU 最具有代表性。谷歌的 TPU 系列芯片从 v1 到最新的 Trillium TPU。TPU 为 Gemini 2.0 的训练和推理提供了 100% 的支持。据谷歌这边说,Trillium 的早期客户 AI21 Labs 认为是有显著改进的。AI21 Labs 首席技术官 Barak Lenz 表示:「Trillium 在规模、速度和成本效益方面的进步非常显著。」现在谷歌的 TPU v7 正在开发阶段,同样采用的是 3nm 工艺,预计量产时间是在 2026 年。
据产业链相关人士透露,谷歌 TPU 芯片去年的生产量已经达到 280 万到 300 万片之间,成为全球第三大数据中心芯片设计厂商。
从合作对象来说,谷歌和博通始终是在深度合作的。谷歌从 TPU v1 开始,就和博通达成了深度合作,它与博通共同设计了迄今为止已公布的所有 TPU,而博通在这方面的营收也因谷歌水涨船高。
微软在 ASIC 方面也在发力。Maia 200是微软为数据中心和 AI 任务定制的高性能加速器,同样采用 3nm 工艺,预计在 2026 年进入量产阶段,至于现在 Maia 100,也是专为在 Azure 中的大规模 AI 工作负载而设计。支持大规模并行计算,特别适合自然语言处理(NLP)和生成式 AI 任务。从现在的信息来看,这款产品微软选择和 Marvell 合作。
LPU 与 GPU 对比
LPU 与 GPU 对比
早在今年 1 月就有消息传出,美国推理芯片公司Groq 已经在自己的 LPU 芯片上实机运行 DeepSeek,效率比最新的 H100 快上一个量级,达到每秒 24000token。值得关注的是,Groq 曾于 2024 年 12 月在沙特阿拉伯达曼构建了中东地区最大的推理集群,该集群包括了 19000 个 Groq LPU。
Open AI首款 AI ASIC 芯片即将完成,会在未来几个月内完成其首款内部芯片的设计,并计划送往台积电进行制造,以完成流片(taping out)。最新消息是,OpenAI 会在 2026 年实现在台积电实现量产的目标。
ASIC 真的划算吗?
谷歌、AWS、Open AI 都在加大对自研 ASIC 的投入。那么,ASIC 真的划算吗?
先从性能上来看,ASIC 是为特定任务定制的芯片,其核心优势在于高性能和低功耗。在同等预算下,AWS 的 Trainium 2 可以比英伟达的 H100 GPU 更快速完成推理任务,且性价比提高了 30%~40%。Trainium3 计划于 2025 年下半年推出,计算性能提高 2 倍,能效提高 40%。
并且,GPU 由于架构的特性,一般会在 AI 计算中保留图形渲染、视频编解码等功能模块,但在 AI 计算中这些模块大部分处于闲置状态。有研究指出,英伟达 H100 GPU 上有大约 15% 的晶体管是未在 AI 计算过程中被使用的。
从成本上来看,ASIC 在大规模量产时,单位成本显著低于 GPU。ASIC 在规模量产的情况下可以降至 GPU 的三分之一。但一次性工程费用 NRE(Non-Recurring Engineering)非常高。
以定制一款采用 5nm 制程的 ASIC 为例,NRE 费用可以高达 1 亿至 2 亿美元。然而一旦能够大规模出货,NRE 费用就可以很大程度上被摊薄。
此前有业内人士分析,中等复杂程度的 ASIC 盈亏平衡点在 10 万片左右,这对于很多厂商来说已经是遥不可及。
但对于大规模部署的云计算大厂或 AI 应用提供商,ASIC 的定制化优势能够显著降低运营成本,从而更快地实现盈利。
算力走向推理,ASIC 的需求只多不少
在温哥华 NeurIPS 大会上,OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 曾作出「AI 预训练时代将终结」的判断。
巴克莱的一份报告预计,AI 推理计算需求将快速提升,预计其将占通用人工智能总计算需求的 70% 以上,推理计算的需求甚至可以超过训练计算需求,达到后者的 4.5 倍。
英伟达 GPU 目前在推理市场中市占率约 80%,但随着大型科技公司定制化 ASIC 芯片不断涌现,这一比例有望在 2028 年下降至 50% 左右。
不过,在博通的观察中,AI 训练仍然是会占据主流。博通 CEO 陈福阳最近表示:「公司把推理作为一个独立的产品线,推理与训练芯片的架构非常不同。公司预计三个客户未来需求市场总量将达 600 亿~900 亿美元,这个需求总量既包含了训练,又包含了推理,但其中训练的部分更大。」
对于第二季度来讲,博通对于 ASIC 的预期仍旧保持乐观。预计第二季度博通的 AI 半导体收入将继续保持强劲增长势头,达到 44 亿美元。
Marvell 在电话会议上,同样也展示了对于 ASIC 的信心。透露其定制的ARM CPU,将在客户的数据中心中得到更广泛的应用。并且定制的人工智能 XPU,其表现也非常出色,未来将有大量的量产。
关键词: ASIC芯片

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码