AI加速器测试:依赖可测试性设计创新

EDA/PCB 时间:2026-05-14来源:

核心要点

AI 芯片中加速器的普及,正深刻影响测试流程:测试插入点增多、分析更深入、设备全生命周期监控需求上升。

AI 加速器是定制软硬件平台,专为加速神经网络、机器学习、生成式 AI 并行计算而设计。这类多芯粒模块为自动驾驶、机器人、芯片自适应测试等应用提供实时算力。可测试性设计(DFT)技术正快速迭代,应对核心挑战:芯粒间测试数据高速传输、测试平台热管理、面向高功耗 / 高温 / 全天候负载的新型压力测试。

1778725399691680.png

图 1:验证芯粒间接口是 2.5D/3D 封装架构的关键。来源:泰瑞达(Teradyne)

本文为系列文章第二篇。正如首篇所述,AI 模块测试比传统片上系统(SoC)测试难度显著提升:

问题的严峻性不言而喻。西门子 EDA(Siemens EDA)3D-IC DFT 与良率技术主管范・潘表示:

“AI 加速器架构极度复杂、并行度极高,导致 DFT 测试向量生成与功耗管理难度陡增。同时,片上 / 外部内存带宽达每秒 TB 级,制造测试中的可控性、可观性面临巨大挑战。传统测试方法难以覆盖新型失效模式与芯粒互连故障,必须采用创新 DFT 方案。”

因此,芯片厂商比以往更依赖功能测试。爱德万测试(Advantest)美国应用研究与技术副总裁艾拉・列文索尔、业务发展副总裁理查德・拉思罗普在近期文章中指出:

“功能测试可跨核心、芯粒、内存分析整体行为(区别于孤立核心的结构测试),是发现微小缺陷、环境边缘故障的关键手段。”

多芯片封装的测试策略之一:将尽可能多的功能测试前移至晶圆探测阶段。

1778725440615270.png

图 2:多芯片集成的良率压力,推动功能测试左移。来源:爱德万测试

这对多芯片封装尤为关键。新思科技首席产品经理法伊萨尔・戈里亚瓦拉表示:

“与单芯片测试一致,多芯片测试目标也是尽早发现缺陷。区别在于:必须确保仅将已知合格芯片用于封装,减少后期调试成本、避免昂贵的现场失效。”

但实现难度极大。安靠科技(Amkor)制造测试高级总监维尼特・潘乔利指出:

“先进封装复杂度提升数个量级,且客户定制化设计增多。AI 专用芯片峰值电流达 1200 安培(未来将达 2400 安培),测试系统需施加 2 倍于常规工况的压力,热管理至关重要。”

这要求测试系统具备高精度功耗控制、快速钳位、接触电阻在线监测能力。

AI 系统由海量重复核心与多层内存构成。爱德万测试 P93k 产品线业务发展经理丹尼尔・西蒙切利解释:

“若芯粒完全相同,无需向多引脚重复发送向量数据。我们采用流网络架构(SSN),配合 PCIe 加速传输。芯片可自主分发测试数据至所有核心,避免重复发送。此外,支持片上比对(替代测试仪比对),大幅提升测试效率。”

安靠科技的潘乔利表示:AI 加速器量产测试聚焦三大核心:芯粒硅块、芯粒间互连、封装级连接(电气 / 逻辑 / 热性能)。AI 逻辑块支持扫描测试,结构测试可检测晶体管级缺陷,流程与先进逻辑芯片一致:EDA 生成自动测试向量、故障模型覆盖传统固定故障与现代全速跳变延迟、路径延迟,用于晶圆探测与封装终测。

获取封装内每颗芯片 / 芯粒的详细数据,有助于性能匹配。proteanTecs 首席执行官沙伊・科恩表示:

“芯片可能来自不同供应商、封装方也可能是第三方,目前尚无完美解决方案。但通过遥测技术,可将芯片内部与接口故障可见度提升 10 倍,例如在切割测试中避免封装不良芯片,还可从性能 / 功耗 / 良率维度筛选互补芯片,优化协同工作效率。”

遥测(片上监测器)早期用于检测静默数据损坏(SDE)—— 这类罕见故障仅在特定环境压力与负载下出现。同时,遥测可监测芯片老化、预测剩余寿命,助力数据中心预防性维护。

失效并非仅来自芯粒,也可能出现在芯片与中介层间的海量互连中。泰瑞达半导体测试事业部产品营销高级总监乔治・赫塔特表示:

“硅中介层 TSV 功能验证至关重要。我们常聚焦芯片本身,却忽视中间层。DFT 需保障 TSV 结构完整性,例如在 TSV 中嵌入智能模块,实现直流 / 交流测试,提升信号完整性与噪声隔离能力。”

新型失效模式

西门子 EDA 的潘指出,AI 加速器模块面临多种新型关键失效:

“传统固定故障模型难以覆盖高速高密度场景下的信号完整性、串扰(如桥接故障、微小延迟缺陷),且相邻互连会加剧噪声。此外,堆叠芯片的机械 / 热接触缺陷会随时间累积,需持续在线监测。I/O/ 通道修复能力成为提升良率的核心手段。”

安靠科技测试业务发展高级总监斯科特・卡罗尔补充:

“AI 模块新型失效多源于硅缺陷、封装缺陷、热致性能衰减。”

功耗感知自动测试向量生成(ATPG)可缓解特定外部失效。新思科技的戈里亚瓦拉表示:

“功耗是失效主因。ATPG 向量翻转率高,易导致电压跌落超出功能模式功耗预算,引发误判与良率损失。”

芯粒间通信

芯粒间接口分两类:逻辑 - 逻辑接口(如 UCIe 等物理层接口、GPIO 等低速 I/O 接口)、逻辑 - 内存接口(如 HBM 物理层接口),二者 DFT 需求差异显著。

戈里亚瓦拉解释:

“接口类型多样、协议标准复杂(主带 / 边带分区、速率各异、冗余通道可选),导致 DFT 与 SoC 设计难以覆盖全接口的测试、修复、向量生成、硅片调试与诊断。”

由于系统级测试无法使用传统 JTAG,需采用 高级外设总线(APB)等片上接口实现测试可控 / 可观。现有 IEEE(1149.1/1500/1687/1838)与 JEDEC 接口 IP 标准仍存在空白。

2023 年,新思科技与台积电合作,基于CoWoS 封装开发多芯片参考方案,实现芯片全生命周期(键合前 / 后制造、上电、工作模式)的测试 / 监控 / 调试 / 修复,且无覆盖率损失与向量冗余。2024 年底成功完成双芯粒 + 中介层流片:一套配置通过 UCIe 接口实现 SLM 监控 / 测试 / 调试 / 修复;另一套采用符合 IEEE 1838 标准的 GPIO 接口。

c274af2f-04ca-4632-9292-931f6594793e.png

图 3:新思科技 - 台积电测试样片简化框图(复用 UCIe 物理层资源),支持测试 / 调试 / 修复。来源:新思科技

西门子 EDA 的潘详解互连验证技术:

系统级测试

区别于自动测试设备(ATE)与封装测试,系统级测试(SLT)模拟真实运行环境:将芯片、外设、软件集成测试,将缺陷逃逸率降至可接受水平(百万缺陷数 DPPM)。

传统 ATE 难以检测边缘缺陷(多组件协同高速 / 高温 / 特定负载下才暴露)。英特尔晶圆厂自研 SLT 模块化平台,专门排查 SDE 等罕见故障,配置与真实系统一致的内存 / 存储 / 显卡 / 网络组件。

英特尔晶圆厂产品开发架构师维什瓦纳特・纳塔拉詹表示:

“传统方法难以检测的高速接口缺陷,在真实数据流量与电气噪声环境下会暴露。SLT 可避免 USB 断连、音频卡顿、显卡性能下降等影响用户体验与品牌声誉的问题。”

IBM 研究院 AI 硬件研究工程师约翰・戴维・兰卡斯特强调 AI 加速器对高可用性、可靠性的严苛要求:

“需在极限高压负载下测试全硬件栈,确保现场零故障。我们执行最严苛的大语言模型(LLM)推理测试,全面校验错误、张量结果与诊断信息,同步压力测试计算核心、内存接口、功耗域。”

制造流程逐步解锁芯片测试范围:从晶圆测试到 SLT 全芯片验证。由于多项功能仅能在制造末期测试,SLT 是量产前保障一致性与可靠性的关键环节。

SLT 测试套件通过闭环迭代持续优化:执行测试→分析失效→优化负载→更新筛选标准。工程师需平衡测试吞吐量与覆盖率—— 受制造测试时间限制,仅能执行高预测性、高覆盖率的核心测试。兰卡斯特表示:

“确定最小有效测试集,需分析大量流片阶段的失效与边缘数据。”

老化测试(Burn-in)通过施加高于常规工况的电压 / 温度,模拟晶圆工艺缺陷与波动导致的老化。安靠科技的潘乔利表示:

“老化测试至关重要(尤其新工艺),量产初期剔除早期失效芯片不可或缺。晶圆级老化难度高,目前仍以封装后老化为主。”

结论

AI 加速器与多芯片封装时代,全生命周期测试(晶圆探测→系统级测试)是保障数据中心全天候稳定运行的核心。新思科技的戈里亚瓦拉总结:

“AI 加速器必须集成现场测试 / 修复能力,覆盖制造到全生命周期。”

可测试性设计(DFT)价值凸显:接口内置自测试、HBM 专用 BiST(回环 + 通道修复)、处理器间高速链路 SerDes BiST、功耗感知 ATPG,协同保障芯片质量。系统级测试则是量产前验证 AI 模块功能的关键环节。

关键词: 新思科技 Synopsys 台积电 TSMC AI加速器

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版