AI加速器测试:依赖可测试性设计创新
核心要点
I/O 与通道修复能力,正成为提升良率的关键。
系统级测试可发现边缘缺陷、罕见故障(如静默数据损坏)。
新思科技(Synopsys)与台积电(TSMC)联合开发多芯片测试样片,支持芯片全生命周期的测试、监控、调试与修复。
AI 芯片中加速器的普及,正深刻影响测试流程:测试插入点增多、分析更深入、设备全生命周期监控需求上升。
AI 加速器是定制软硬件平台,专为加速神经网络、机器学习、生成式 AI 并行计算而设计。这类多芯粒模块为自动驾驶、机器人、芯片自适应测试等应用提供实时算力。可测试性设计(DFT)技术正快速迭代,应对核心挑战:芯粒间测试数据高速传输、测试平台热管理、面向高功耗 / 高温 / 全天候负载的新型压力测试。

图 1:验证芯粒间接口是 2.5D/3D 封装架构的关键。来源:泰瑞达(Teradyne)
本文为系列文章第二篇。正如首篇所述,AI 模块测试比传统片上系统(SoC)测试难度显著提升:
高电流密度带来热隔离、热点抑制难题;
先进工艺器件与互连(如硅通孔 TSV、混合键合)催生新失效模式;
芯粒间接口测试通道受限,亟需 DFT 创新以实现完整测试、调试与修复。
问题的严峻性不言而喻。西门子 EDA(Siemens EDA)3D-IC DFT 与良率技术主管范・潘表示:
“AI 加速器架构极度复杂、并行度极高,导致 DFT 测试向量生成与功耗管理难度陡增。同时,片上 / 外部内存带宽达每秒 TB 级,制造测试中的可控性、可观性面临巨大挑战。传统测试方法难以覆盖新型失效模式与芯粒互连故障,必须采用创新 DFT 方案。”
因此,芯片厂商比以往更依赖功能测试。爱德万测试(Advantest)美国应用研究与技术副总裁艾拉・列文索尔、业务发展副总裁理查德・拉思罗普在近期文章中指出:
“功能测试可跨核心、芯粒、内存分析整体行为(区别于孤立核心的结构测试),是发现微小缺陷、环境边缘故障的关键手段。”
多芯片封装的测试策略之一:将尽可能多的功能测试前移至晶圆探测阶段。

图 2:多芯片集成的良率压力,推动功能测试左移。来源:爱德万测试
这对多芯片封装尤为关键。新思科技首席产品经理法伊萨尔・戈里亚瓦拉表示:
“与单芯片测试一致,多芯片测试目标也是尽早发现缺陷。区别在于:必须确保仅将已知合格芯片用于封装,减少后期调试成本、避免昂贵的现场失效。”
但实现难度极大。安靠科技(Amkor)制造测试高级总监维尼特・潘乔利指出:
“先进封装复杂度提升数个量级,且客户定制化设计增多。AI 专用芯片峰值电流达 1200 安培(未来将达 2400 安培),测试系统需施加 2 倍于常规工况的压力,热管理至关重要。”
这要求测试系统具备高精度功耗控制、快速钳位、接触电阻在线监测能力。
AI 系统由海量重复核心与多层内存构成。爱德万测试 P93k 产品线业务发展经理丹尼尔・西蒙切利解释:
“若芯粒完全相同,无需向多引脚重复发送向量数据。我们采用流网络架构(SSN),配合 PCIe 加速传输。芯片可自主分发测试数据至所有核心,避免重复发送。此外,支持片上比对(替代测试仪比对),大幅提升测试效率。”
安靠科技的潘乔利表示:AI 加速器量产测试聚焦三大核心:芯粒硅块、芯粒间互连、封装级连接(电气 / 逻辑 / 热性能)。AI 逻辑块支持扫描测试,结构测试可检测晶体管级缺陷,流程与先进逻辑芯片一致:EDA 生成自动测试向量、故障模型覆盖传统固定故障与现代全速跳变延迟、路径延迟,用于晶圆探测与封装终测。
获取封装内每颗芯片 / 芯粒的详细数据,有助于性能匹配。proteanTecs 首席执行官沙伊・科恩表示:
“芯片可能来自不同供应商、封装方也可能是第三方,目前尚无完美解决方案。但通过遥测技术,可将芯片内部与接口故障可见度提升 10 倍,例如在切割测试中避免封装不良芯片,还可从性能 / 功耗 / 良率维度筛选互补芯片,优化协同工作效率。”
遥测(片上监测器)早期用于检测静默数据损坏(SDE)—— 这类罕见故障仅在特定环境压力与负载下出现。同时,遥测可监测芯片老化、预测剩余寿命,助力数据中心预防性维护。
失效并非仅来自芯粒,也可能出现在芯片与中介层间的海量互连中。泰瑞达半导体测试事业部产品营销高级总监乔治・赫塔特表示:
“硅中介层 TSV 功能验证至关重要。我们常聚焦芯片本身,却忽视中间层。DFT 需保障 TSV 结构完整性,例如在 TSV 中嵌入智能模块,实现直流 / 交流测试,提升信号完整性与噪声隔离能力。”
新型失效模式
西门子 EDA 的潘指出,AI 加速器模块面临多种新型关键失效:
“传统固定故障模型难以覆盖高速高密度场景下的信号完整性、串扰(如桥接故障、微小延迟缺陷),且相邻互连会加剧噪声。此外,堆叠芯片的机械 / 热接触缺陷会随时间累积,需持续在线监测。I/O/ 通道修复能力成为提升良率的核心手段。”
安靠科技测试业务发展高级总监斯科特・卡罗尔补充:
“AI 模块新型失效多源于硅缺陷、封装缺陷、热致性能衰减。”
功耗感知自动测试向量生成(ATPG)可缓解特定外部失效。新思科技的戈里亚瓦拉表示:
“功耗是失效主因。ATPG 向量翻转率高,易导致电压跌落超出功能模式功耗预算,引发误判与良率损失。”
芯粒间通信
芯粒间接口分两类:逻辑 - 逻辑接口(如 UCIe 等物理层接口、GPIO 等低速 I/O 接口)、逻辑 - 内存接口(如 HBM 物理层接口),二者 DFT 需求差异显著。
戈里亚瓦拉解释:
“接口类型多样、协议标准复杂(主带 / 边带分区、速率各异、冗余通道可选),导致 DFT 与 SoC 设计难以覆盖全接口的测试、修复、向量生成、硅片调试与诊断。”
由于系统级测试无法使用传统 JTAG,需采用 高级外设总线(APB)等片上接口实现测试可控 / 可观。现有 IEEE(1149.1/1500/1687/1838)与 JEDEC 接口 IP 标准仍存在空白。
2023 年,新思科技与台积电合作,基于CoWoS 封装开发多芯片参考方案,实现芯片全生命周期(键合前 / 后制造、上电、工作模式)的测试 / 监控 / 调试 / 修复,且无覆盖率损失与向量冗余。2024 年底成功完成双芯粒 + 中介层流片:一套配置通过 UCIe 接口实现 SLM 监控 / 测试 / 调试 / 修复;另一套采用符合 IEEE 1838 标准的 GPIO 接口。

图 3:新思科技 - 台积电测试样片简化框图(复用 UCIe 物理层资源),支持测试 / 调试 / 修复。来源:新思科技
西门子 EDA 的潘详解互连验证技术:
边界扫描(1149.x):板级 / 封装级互连测试核心技术,检测开路 / 短路 / 固定故障,支持高速差分接口(1149.6);
接口内置自测试(BiST):HBM 数据路径专用 BiST(利用回环模式与通道修复)、处理器间高速串行链路 SerDes BiST(回环 + 伪随机二进制序列 PRBS);
全速功能测试:大数据传输 + 性能基准测试,验证真实工况下完整性与性能。
系统级测试
区别于自动测试设备(ATE)与封装测试,系统级测试(SLT)模拟真实运行环境:将芯片、外设、软件集成测试,将缺陷逃逸率降至可接受水平(百万缺陷数 DPPM)。
传统 ATE 难以检测边缘缺陷(多组件协同高速 / 高温 / 特定负载下才暴露)。英特尔晶圆厂自研 SLT 模块化平台,专门排查 SDE 等罕见故障,配置与真实系统一致的内存 / 存储 / 显卡 / 网络组件。
英特尔晶圆厂产品开发架构师维什瓦纳特・纳塔拉詹表示:
“传统方法难以检测的高速接口缺陷,在真实数据流量与电气噪声环境下会暴露。SLT 可避免 USB 断连、音频卡顿、显卡性能下降等影响用户体验与品牌声誉的问题。”
IBM 研究院 AI 硬件研究工程师约翰・戴维・兰卡斯特强调 AI 加速器对高可用性、可靠性的严苛要求:
“需在极限高压负载下测试全硬件栈,确保现场零故障。我们执行最严苛的大语言模型(LLM)推理测试,全面校验错误、张量结果与诊断信息,同步压力测试计算核心、内存接口、功耗域。”
制造流程逐步解锁芯片测试范围:从晶圆测试到 SLT 全芯片验证。由于多项功能仅能在制造末期测试,SLT 是量产前保障一致性与可靠性的关键环节。
SLT 测试套件通过闭环迭代持续优化:执行测试→分析失效→优化负载→更新筛选标准。工程师需平衡测试吞吐量与覆盖率—— 受制造测试时间限制,仅能执行高预测性、高覆盖率的核心测试。兰卡斯特表示:
“确定最小有效测试集,需分析大量流片阶段的失效与边缘数据。”
老化测试(Burn-in)通过施加高于常规工况的电压 / 温度,模拟晶圆工艺缺陷与波动导致的老化。安靠科技的潘乔利表示:
“老化测试至关重要(尤其新工艺),量产初期剔除早期失效芯片不可或缺。晶圆级老化难度高,目前仍以封装后老化为主。”
结论
AI 加速器与多芯片封装时代,全生命周期测试(晶圆探测→系统级测试)是保障数据中心全天候稳定运行的核心。新思科技的戈里亚瓦拉总结:
“AI 加速器必须集成现场测试 / 修复能力,覆盖制造到全生命周期。”
可测试性设计(DFT)价值凸显:接口内置自测试、HBM 专用 BiST(回环 + 通道修复)、处理器间高速链路 SerDes BiST、功耗感知 ATPG,协同保障芯片质量。系统级测试则是量产前验证 AI 模块功能的关键环节。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码