AI 加速器开启集成电路测试新时代
AI 加速器应用广泛,从大语言模型训练、基于大模型的推理预测,到自动驾驶中传感器与摄像头数据的实时处理、智能手机、相机、无人机等 AI 边缘场景,甚至可加速疫苗研发过程。
但 AI测试系统是一个全新课题,它涉及到高速接口、多处理器、深层存储层级测试,还包含光接口测试,需要开展在裸芯片、堆叠模组(HBM)、最终测试、系统级测试及现场测试多个环节。这种多芯片、多接口测试需要 DFT 与测试方法创新,包括实施流式扫描,以及增加更多的在线应力测试和后硅化过程模块测试,以全面捕捉所有潜在故障。
随着封装尺寸增大,需要新型搬运设备与更大尺寸的 JEDEC 托盘。测试工程师们还面临着在先进工艺节点、混合键合接口、硅通孔内部、凸点接口以及硅基板连接器等部位出现的新故障问题。测试是人工智能发展过程中最为关键的环节。从晶圆检测到数据中心内的系统测试,整个过程中都需要进行全面的故障检测。
IBM 研究院 AI 硬件研究工程师约翰・戴维・兰卡斯特表示:“积极的一面是,AI 加速器计算引擎可针对更聚焦、更可预测的工作负载开展测试,因为我们明确其要执行的运算类型。挑战在于,这些引擎通常采用多种精度格式,会加大建立比特精准预期结果的难度。此外,启动与停止推理任务会引发大幅瞬态功率波动,对加速器的电源完整性电路造成应力,若未充分表征,可能导致运行中失效。”
AI 测试首先要明确被测器件(DUT)。爱德万测试 P93k 产品线业务开发经理丹尼尔・西蒙切利称:“AI 系统中,通常单个计算核心会在同一芯片上复制数十乃至数千次,属于同质化设计;而 CPU 是异质化设计,几乎要测试所有模块。针对运行大语言模型的人工智能系统,软件栈是定制化的,需对芯片施加应力,验证其能否以正确系数完成运算,同时要测试数十亿个晶体管。因此,复杂度主要源于需要输入器件的海量扫描数据。”
系统级测试中,热管理与电源管理是关键问题。Amkor技术高级总监、制造测试专家维尼特・潘乔利表示:“AI 加速器的电流密度极高,平台中每个封装功耗达 300 瓦至 2000 瓦。芯片单元的精准布局以实现热隔离,是封装设计的核心架构决策。测试时,每个芯片关键区域的热热点会影响自身及相邻芯片性能。核门控测试向量可实现晶圆分选、最终测试与系统级测试中的热管理,同时采用热界面材料(TIM)及定制风冷、液冷头,保障量产测试顺利进行。”
什么是 AI 加速器?
AI 加速器并非单一器件,而是由搭载数千个核心的芯片单元、HBM 与静态随机存储器(SRAM)组成的集合,为算法提供大规模并行处理能力。这与仅有 2 至 8 个核心、按顺序处理请求且工作负载截然不同的 CPU 形成对比。
CPU 可通用化,而 AI 加速器通常针对特定任务设计。例如神经处理器(NPU)用于深度学习,张量处理器(TPU)擅长并行矩阵乘法与张量运算(神经网络核心数学运算)。
基于图形处理器(GPU)的模组是最早的 AI 加速器(目前仍用于游戏与图形处理),因其可实现并行计算且优先保障极低延迟操作。但与 GPU 不同,AI 加速器更注重内存的高带宽读写,计算速度更快、功耗更低。

图1:2.5D 与 3D 封装架构中,芯片间接口验证与测试至关重要。
数据中心模组主要分为两类。泰瑞达半导体测试集团产品营销高级总监豪尔赫・乌尔塔特解释:“AI 模组是异质集成先进封装,包含一个或多个 GPU、HBM 堆叠、高速串行接口及中介层上的共封装光学器件;第二类是搭载高速接口与中介层共封装光学器件的交换模组。AI 数据中心模组不只是单个 xPU(最大尺寸 26 毫米 ×33 毫米),当前模组尺寸达 100 毫米 ×100 毫米,未来将增至 150 毫米 ×150 毫米,因此需按系统级标准开展测试。”
在测试芯片与芯片之间的接口时,保持信号完整性是一个重要的考量因素。西门子电子设计自动化公司 3D-IC DFT 和良率技术赋能经理库克·潘表示:“2.5D 和 3D 包装在芯片单元之间的高速接口处会引发严重的信号完整性及噪声隔离问题。标准故障模型根本无法检测由这些复杂的芯片间连接或先进的封装本身所产生的缺陷,这就需要开发专门的互连测试和监测手段。这些芯片间的连接还直接影响了 DFT 模式交付,这就需要创新的 DFT 方法,以便通过像 UCIe 这样的高速接口高效地创建和交付芯片之间的测试数据。
尽管存在差异,芯片测试核心目标未变。新思科技首席产品经理斯里・甘塔表示:“测试核心目标仍是以最低成本实现最高测试质量。但针对先进工艺节点、热应力与电源应力、多芯片系统及现场 / 在系统运行场景,新增了更多测试需求。”
对于 AI 模组,片上监测器愈发重要。proteanTecs 首席执行官沙伊・科恩称:“端到端优化已成为必然。如今无法先打造最优芯片、再打造最优系统、最优机架,最后搭建数据中心,因为会损失大量性能与功耗优势。核心是针对每个工作负载、甚至每几个时钟周期进行优化,实现整体功耗最低、性能最高。”
多芯片测试新时代也要求企业间加强协作。PDF Solutions 首席执行官约翰・基巴里安表示:“量产复杂度极高 —— 需协调多家供应商的基板、基底芯片、第三方组件、各类封装技术、外包封装测试(OSAT)配置与测试系统。半导体行业曾携手攻克重大工程难题,但规模化芯片单元量产需要更深层次的协作,尤其是系统厂商不断整合不同供应商的组件。这种协同需覆盖初始导入与持续量产全流程,并具备快速适配不同产品型号的灵活性。”
这一新趋势进一步凸显可测试性设计创新的重要性。范表示:“AI 芯片测试是当前半导体工程领域的前沿挑战,AI 模组极致的架构复杂度与大规模并行性带来了巨大难题。”
扫描测试迈向流式化
为适配新需求,扫描测试(结构测试)速度大幅提升,用于检测数百万个焊料凸点连接中的开路、短路等制造缺陷。
AI 系统并行架构的弊端是电路失效后难以定位。爱德万测试的西蒙切利称:“如果在产量提升过程中某些设备出现故障,那么故障诊断就会稍微复杂一些,因为测试中出现失效比特或失效向量时,无法确定芯片中数千个核心的具体故障位置。因此,测试设备需识别扫描网络,实现失效测试序列的精准映射。为加速该过程,我们正采用 PCIe 等高速接口。优势在于,晶圆分选、最终测试与系统级测试采用统一技术,不同测试环节间的测试内容传输更便捷。”
便捷程度取决于测试对象。西门子 EDA 的范称:“大规模内存使用与架构体量,给制造测试中的可控性与可观测性带来困难。从 DFT 角度,测试向量的生成、传输与执行极为复杂,覆盖庞大架构所需的向量体量巨大,导致测试时间延长。此外,众多核心与内存接口的并发运行,使测试中的 DFT 电源管理成为关键问题,功耗可能大幅飙升。”
HBM 测试技术演进
范表示:“AI 系统依托数千个计算核心与深层存储层级,需同时使用片上 SRAM 与外部动态随机存储器(DRAM),数据传输速率达每秒 TB 级。大规模内存使用与架构体量,给制造测试中的可控性与可观测性带来困难。从 DFT 角度,测试向量的生成、传输与执行极为复杂,覆盖庞大架构所需的向量体量巨大,导致测试时间延长。此外,众多核心与内存接口的并发运行,使测试中的 DFT 电源管理成为关键问题,功耗可能大幅飙升。”
HBM 由多层 DRAM 芯片堆叠而成,目前最多可达 12 层,通过基底逻辑芯片通信(该基底芯片近期已替代传统 DRAM 基底芯片)。西蒙切利称:“基底芯片负责校验上方堆叠的所有内存,切割后通常还需额外测试,因为这类封装脆弱且昂贵。HBM 成本可占整个封装成本的 50% 以上,因此尽早检测垂直结构的微小变化、捕捉潜在故障至关重要。为此,客户正考虑新增测试环节,部分称为部分组装测试,部分称为单颗芯片测试,该环节将在未来一两年内落地。”
芯片边缘可部署片上监测器(代理单元),检测切割后的缺陷。proteanTecs 的科恩称:“若需高精度工艺监测,部分代理单元需部署在芯片边缘。这是多芯片与普通芯片的区别 —— 多芯片场景中,芯片边缘状态监测更重要,需明确芯片间的运行情况。”
随着海力士、美光、三星等 HBM 厂商从 HBM3、HBM3E 升级至 HBM4,核心目标是在有限堆叠高度内集成更多 DRAM 芯片、提升存储容量。HBM4 堆叠厚度标准从 HBM3/3E 的 720 微米放宽至 775 微米(含基底芯片)。
HBM4 仍将采用微凸点连接 16 层 DRAM 芯片,后续采用混合键合技术,下一代预计包含 20 层 DRAM 芯片与 1 层基底芯片。实现高带宽所需的大量信号通道,使每一代产品的硅通孔(TSV)数量更多、密度更高,微凸点间距与尺寸缩小至 20 至 30 微米。
新思科技首席产品经理费萨尔・戈里亚瓦拉称:“为实现高带宽、低延迟,HBM 内存采用极宽接口(1024 位、2048 位,迈向 4096 位)。为提升容量,HBM 标准将堆叠高度提升至 12 层、16 层,迈向 20 层。这提升了内存堆叠的互连密度与 TSV 数量,微凸点总数大幅增加,外部凸点间距持续缩小。对 DRAM 厂商而言,这带来热管理、电源分配网络、布线、可靠性与 TSV 容量等多重挑战。”
HBM 良率责任归属问题备受关注。戈里亚瓦拉称:“DRAM 厂商向专用集成电路(ASIC)厂商 / 原始设备制造商(OEM)供应良品内存芯片,但封装组装后如何测试?例如,OEM / 系统合作伙伴如何在最终测试中检测互连固定故障?HBM 内存与 xPU 间的互连信号间距紧凑、数量庞大,OEM / 系统集成商通过自动测试设备(ATE)全面测试封装后 DRAM 难度极大。”
他还强调测试时间与覆盖率的平衡。“即使是 8G DRAM,在 ATE 上全面测试也需数秒。因此,需支持用户灵活平衡测试时间与覆盖率,仅在必要时开展详细物理失效分析(PFA)。”
HBM 测试并未止于系统级测试,数据中心还需开展在系统测试,应对老化相关失效。戈里亚瓦拉解释:“运维 / 计划停机期间,用户可开展特定的行锤测试,检测 DRAM 的边缘特性与潜在敏感度,预防灾难性故障。更复杂的是,定制 HBM 等新兴方案中,HBM 基底芯片采用逻辑工艺制造(而非 DRAM 厂商的内存工艺)。这为片上系统(SoC)设计师提供更灵活的设计划分,但也加大了良品堆叠与良品封装的测试复杂度。”

图2:定制 HBM(cHBM)中,DRAM 基底芯片采用逻辑工艺制造,测试难度大幅提升。来源:新思科技
基于上述原因(方法 / 可访问性、测试时间、不同测试场景、定制 HBM 兴起),HBM 测试是重大挑战与瓶颈,也是 2.5D 集成电路设计的关键考量。
测试可访问性
约 15 年前,头部器件厂商、测试公司与外包封装测试厂商意识到,多芯片封装中部分芯片的测试可访问性不足将成为重大问题,这也是 IEEE 1838 标准制定的初衷。该标准旨在实现堆叠芯片与测试设备的通信,并通过新型 DFT 架构实现堆叠中非接触芯片间的通信。
尽管 AI 子系统测试存在诸多差异,行业仍可复用现有测试方法。安靠测试业务开发高级总监斯科特・卡罗尔称:“AI 封装测试与单片 xPU 不同,核心难点是封装内芯片间互连的测试可访问性不足。但所有 xPU 逻辑测试理念,包括符合 IEEE 1838 标准的自动测试向量生成(ATPG)、扫描、基于结构的功能测试等,通过 EDA 流程为 xPU 开发的方案,均适用于 AI 模组。”
芯片单元级逻辑实现标准带来多重助力。卡罗尔称:“从 DFT 角度,UCIe 通过冗余修复、位宽降级、通道反转(物理层核心功能)简化量产测试,可选功能还可支持收发端差分眼图宽度与高度验证。为满足加速器与内存间的低延迟需求,AI 工作负载要求更高的输入输出(I/O)速率(32Gbps 至 64Gbps),近端与远端环回 DFT 协同使用,保障充足测试覆盖率。”
卡罗尔指出,行业持续协作优化 DFT 技术,IEEE P3405 工作组正提议制定芯片间互连测试生成与校验模块,以及其他测试方法。
另一项挑战是验证处理器(xPU)与 HBM 的连接性(当前通过微凸点连接至硅中介层)。爱德万测试的西蒙切利称:“电气层面保障连接性存在重大挑战,可通过光学检测凸点,但无法替代电气测试,需在处理器与封装连接后开展电气测试。”
引脚可访问性也是难题。泰瑞达的乌尔塔特称:“先进封装无法访问所有引脚,需通过 DFT 接口实现系统级测试。例如,西门子的流式扫描网络(SSN)可助力自动测试设备,提升扫描测试速度。因此,需配备合适接口,实现系统级测试。”

图 3:芯片厂商正探索新增测试环节,尤其针对切割 / 单颗化工序后。来源:泰瑞达
乌尔塔特补充:“另一重要接口是光接口,降低功耗的关键途径之一是从铜互连转向硅光互连。我们近期推出了光接口量产自动测试系统,替代传统机架式实验室测试系统。”
兰卡斯特解释 IBM 的系统级测试方案:“制造阶段,我们以板级配置对芯片施加尽可能严苛的应力,包括在不同电压 / 温度偏差下运行 AI 工作负载,目标是缩小测试中的失效运行裕量,确保芯片与板卡部署后具备高可靠性。”
该测试级别需多层级方案。兰卡斯特称:“这些阶段中,我们启用全套诊断模式,包括校验所有比特精准结果、从硬件层面验证最复杂的 AI 模型。企业客户要求极低的现场失效率,因此测试流程包含从模组级测试到全系统级集成与应力测试的全面硬件验证,确保芯片与集成平台的可靠性。”
经验法则是,测试设备应能施加两倍于现场运行所需的电压应力。兰卡斯特称:“为全面测试芯片上所有组件,我们配备针对芯片特定模块与接口的硬件验证测试套件,在不同频率、电压、温度下运行测试,同时启用全诊断校验。此外,这些测试通过专用硬件测试设备调度,提供比普通客户工作负载更深入的可视性与更高应力水平,确保在比终端用户更严苛的环境下提前发现问题。”
结论
AI 加速器发展仍处于初期阶段,但测试领域已积累大量经验。
安靠的潘乔利称:“AI 集成电路量产测试仍任重道远。首批产品完成组装与测试后,我们将收集更多数据与见解,明确改进方向与核心经验。这些经验将用于优化未来 AI 产品的测试流程。”
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码