以芯片设计提升计算效率:每次查询的最低能耗
人工智能芯片消耗的能源中,有多少真正用在了有效计算上?这一问题影响着从软件、系统架构到芯片设计的各个层面。
核心要点
加快芯片散热只是治标之策,无法解决其背后的深层问题。
行业长期面临的挑战,是如何降低人工智能芯片的每查询能耗。
数据移动、设计裕量预留、软件效率低下,将成为未来能耗优化的核心突破点。
热量问题正严重困扰人工智能芯片,制约着芯片的算力发挥。解决这一问题的思路有两种:要么加快散热速度,要么减少热量产生。两种方法实施起来均非易事,但长期解决方案的核心必然是后者。
芯片内部的每一次运算都会消耗能源、产生热量,而这些热量必须被及时排出。芯片的运算能力,受制于其散热能力和散热速度。目前行业已推出诸多降低能耗的技术方案,虽有成效,但成本高昂,且部分方案本身还会产生额外的能源消耗。
但这只是问题的冰山一角。能源的总供给量并非完全弹性,能源产能的增长速度,早已跟不上人工智能芯片与日俱增的能耗需求。这也引出了一个关键问题:芯片的所有运算都是有效运算吗?这些运算是否以最低能耗完成? 人类大脑的功耗仅约 20 瓦,这足以说明芯片能耗仍有巨大的优化空间,只是所有技术升级都必须兼顾经济可行性。
人们常说,顺着资金流向就能看清问题本质,这一点在芯片功耗问题上尤为适用 —— 如今,功耗早已不再只是技术上的不便,更是影响企业成本的核心因素。新思科技产品营销总监马克・斯温宁表示:“尽管功耗的重要性日益凸显,但在芯片设计领域,它始终处于次要地位。可功耗直接关系到企业的最终利润,而且芯片的冷却成本高得惊人:运行电路时,你要为消耗的电力付费;为芯片散热时,又要为制冷设备的电力消耗再次付费。如今,功耗已成为系统成本的重要组成部分。”
这也是迄今为止,行业更倾向于通过小幅提升散热能力来解决问题的原因。弗劳恩霍夫应用集成信息学研究所自适应系统工程部门设计方法学主管罗兰・扬克表示:“功耗固然重要,了解算法的能耗水平也很有必要,但它并非芯片设计的首要考量标准。在系统层面,功耗的权重会更高,可设计师往往无法掌握算法或元器件的完整功耗信息。能耗优化的可能性有很多,其中大部分甚至从未被纳入研究范围,开展架构层面的研究更是难上加难。”
目前,各大系统厂商已着手解决这一问题,但出于竞争考量,相关研发工作均处于保密状态。是德科技电子设计自动化部门产品管理与解决方案工程总监苏海尔・赛义夫表示:“这类研发工作尚处于前沿阶段,率先布局的厂商认为自己掌握了技术优势。所有研发都在企业内部秘密进行,各家设计公司都不清楚竞争对手的进展。他们将这份技术优势视为‘护城河’,现阶段不愿对外公开。只有当行业发展成熟,所有人的技术方案趋于同质化、研发投入无法获得回报时,他们才会认为继续保密已无意义,转而将相关工作交由电子设计自动化企业承接。届时,全行业都能从中受益,企业也能省去不少研发精力和麻烦。但目前来看,行业还未发展到这一阶段。”
通信环节的能耗考量
过去几十年,半导体行业一直通过集成化实现技术升级:将越来越多的功能集成到单一单片裸片中,而这也基本决定了标准应用场景下的计算问题规模。但人工智能的出现打破了这一格局,由大量处理器组成的计算阵列,开始跨机架、甚至跨数据中心部署,成为行业主流。
斯温宁表示:“芯片间的通信环节消耗了大量电力。异构拆解的一大弊端,就是系统各模块间的通信成本会大幅增加。而单片芯片的一大优势,就是能实现低功耗、高带宽的内部通信。数据中心本身就是异构拆解的一种形式,多个处理器分布在不同机架中,彼此相距数米,其通信功耗已引起行业关注。目前行业正通过光通信降低这部分功耗,数据中心的背板通信正逐步向光通信转型。”
行业正对通信环节的各个维度展开研究。楷登电子院士巴达里纳特・科曼杜尔表示:“看看行业近期在高性能通信协议上的研发投入就会发现,皮焦 / 比特这类能耗指标已成为研发核心。未来,行业还希望将能耗降至飞焦 / 比特级别。在人工智能驱动的应用场景中,这一目标更是成为了研发的重中之重。”
计算架构的性能需求正变得越来越高,传统通信技术已难以跟上其发展步伐。点二科技产品营销与业务发展副总裁戴维・郭表示:“长期以来,铜缆都是通信传输的核心载体,但从速率扩展的角度来看,我们如今正面临集肤效应的困扰,这一效应会影响电子在传输介质中的流动效率。铜缆的性能存在上限,已无法满足未来数据中心的工作负载需求。而光通信虽能解决速率问题,却面临成本、功耗和可靠性的挑战。数据中心行业有一句老话:能用铜缆,就不用光通信;非用不可时,才考虑光通信。”
行业对从铜缆向光通信的转型始终持谨慎态度。斯温宁表示:“光通信的技术复杂度呈阶跃式提升,不仅涉及全新的物理原理,还要求工程师掌握一套截然不同的工具使用技巧,光电器件与半导体的集成也存在诸多难题。尽管相关技术已取得长足进步,且光通信的每比特传输能耗远低于铜缆,常被行业津津乐道,但这一低能耗数值的背后,是光通信的高带宽特性,而非其本身的低功耗优势。”
点二科技正探索一种折中的解决方案。戴维・郭介绍道:“我们研发了 eTube 技术,该技术通过射频信号在塑料波导中传输数据。我们用塑料材料替代传统铜缆作为传输介质,并自主设计波导结构,再通过射频发射器和接收器,实现信号在波导中的传输,所使用的天线与贴片天线十分相似。”
片上通信的能耗同样不容忽视。阿尔泰里斯战略营销副总裁纪尧姆・布瓦耶表示:“对于现代多核、多裸片的片上系统而言,移动数据(权重、激活值、元数据)所消耗的能源,远高于处理这些数据的计算环节。这一现状让片上网络从单纯的集成架构,转变为功耗优化的核心抓手。如果设计团队能根据工作负载的流量模式设计片上网络,就能大幅减少数据移动、实现通信本地化、缓解网络拥塞,进而降低芯片的动态功耗。在功耗日益成为制约因素的当下,控制数据的流向和传输效率,已与优化计算环节同等重要。”
设计环节的能耗优化
尽管许多人工智能工作负载具备一定的通用性,但推理场景的设计往往可以针对性优化,直接满足实际需求。埃克斯佩德拉首席科学家沙拉德・乔莱表示:“我们必须设计出能充分利用网络架构本身特性的硬件架构。边缘设备的性能基本受限于带宽:训练场景可采用多高带宽存储器,而边缘设备往往只有一颗低功耗双倍数据率存储器,部分低成本边缘设备甚至连 64 通道的存储器都没有,仅配备通道数更少的版本。这意味着,带宽管理已成为边缘推理场景算力调度的核心环节。”
如今,芯片的大部分功耗浪费并非来自算术运算本身,而是源于运算周边的各类环节。布瓦耶表示:“不必要的数据移动、匹配度低下的存储层级、无用的推测执行、毛刺功耗,以及为应对极少出现的最坏情况而预留的设计裕量,这些都是功耗浪费的典型例子。因此,真正有效的能耗优化,必须从提升电子生产力入手 —— 即在整个技术栈中,实现每焦耳能耗的有效运算量最大化,这涵盖了从系统调度、工作负载规划,到架构和微架构效率优化的各个层面。在功耗日益受限的时代,控制数据流向和传输效率,与优化计算环节同等重要。”
实现环节的能耗损耗
尽管芯片架构层面存在巨大的能耗优化空间,但在实际实现环节,仍存在大量难以避免的功耗浪费。普罗蒂安泰克解决方案工程副总裁诺姆・布鲁萨尔表示:“固定电压裕量的初衷是保障芯片工作的安全性,但久而久之,它已成为每颗芯片都必须承担的‘能耗税’。电压裕量的设计假设所有最坏情况会同时发生,但实际情况是,这种极端场景几乎从未出现。可芯片却因此被迫始终在偏高的电压下运行,结果显而易见 —— 芯片消耗了大量不必要的能源。这些未被利用的设计裕量,最终造成了数以十亿瓦计的能源浪费,且随着工艺节点的迭代,这一隐性成本还在不断增加。”
设计裕量的预留,也源于行业对工艺的不确定性。戴维・郭表示:“工艺设计套件由代工厂的工艺决定,但它能精准描述晶体管级的性能吗?我们发现答案是否定的,流片后往往会出现诸多意外。模拟和射频设计的难度之所以极高,就是因为设计师一直在突破代工厂工艺的定义边界。”
人工智能芯片的设计,无疑在不断挑战工艺的极限。科曼杜尔表示:“对于更先进的工艺设计套件,头部代工厂会根据流片经验,针对高量产的设计需求进行优化。如果设计师首次采用 0.5 版本的工艺设计套件进行设计,那么最终量产时所使用的工艺设计套件,很可能会有很大差异。对于这些先进工艺节点,设计师必须适应工艺设计套件的持续迭代。而对于成熟工艺节点,流片结果与工艺设计套件的契合度极高,设计师可根据预期的流片结果进行设计优化,当然,代工厂在制定工艺设计套件时,也会加入一定的保守考量。”
部分技术方案可应对这种工艺的不确定性。布鲁萨尔表示:“动态电压频率调节、自适应电压调节这类传统方案,无法从根本上解决问题。它们依赖有限的监测数据和间接估算,因此仍需预留较大的设计裕量。这些方案虽能较好地反映特定工作负载带来的芯片压力,但属于间接指标。如果无法直接掌握芯片实际路径的延迟数据,就无法在保证安全的前提下缩减设计裕量,毕竟,无法监测的指标就无从优化。”
布鲁萨尔认为,要彻底摒弃设计裕量,必须依靠实时硅片反馈系统。他解释道:“我们通过在芯片中集成多款小体积知识产权核,实现了这一目标。这些知识产权核能在芯片的工作模式下,持续监测数百万条实际逻辑路径的时序失效裕量。时序裕量本身就是芯片性能健康度的终极指标,对其进行直接监测,能让系统不受具体性能衰减因素的影响 —— 无论衰减是由工作负载、温度、芯片老化还是电压跌落引起。我们能针对每个功耗状态、每个功耗状态下运行的各类功能负载,甚至每个负载的运行全程,进行实时监测。”
毛刺功耗是另一类无实际效用的功耗浪费。斯温宁表示:“这一问题长期被行业忽视,却占据了芯片总功耗的不小比例。毛刺功耗的分析难度极大,因为它与信号的精准时序密切相关,直到最近,行业才推出能对其进行分析和优化的工具。”
人工智能在制造部分能耗问题的同时,也为解决这些问题提供了新的思路。芯智体首席执行官威廉・王表示:“利用人工智能优化芯片的功耗、性能、面积指标,是一项极具挑战性的工作。这不仅需要平衡功耗与面积的取舍,还要避免出现‘奖励黑客’问题,但这项技术的应用前景也十分广阔。在功耗敏感型设计中,人类工程师只能同时考量有限的几个因素,而人工智能能在更广阔的设计语境中进行推理,在技术栈的早期阶段就提出设计建议,为芯片带来实实在在的效率提升。”
软件环节的能耗短板
即便设计师在硬件层面竭尽所能优化功耗,若软件层面向硬件下达了大量无效运算指令,所有硬件优化都会付诸东流。赛义夫表示:“半导体行业肩负着控制功耗、设定功耗上限、达成功耗目标的责任,但软件行业也必须重视这一问题。在系统设计中,软件是‘指挥者’,而硬件只是执行软件指令的‘引擎’。目前,软件行业对功耗这一痛点的重视程度,还远远不够。”
软硬件协同设计已是大势所趋。兰布斯院士、杰出发明家史蒂文・吴表示:“提升功耗效率是一项复杂的系统工程,需要软硬件协同发力。要实现应用性能和功耗效率的最大化,硬件必须提供合适的加速功能,而软件也必须被设计为能充分利用这些功能。这意味着,行业需要重新设计算法、重构软件,还需要应用开发者更深入地了解系统硬件的架构特性,比如缓存大小、动态随机存取存储器和存储层级等。数据移动仍是功耗消耗的主要环节,应用开发者需要权衡:存储和读取中间结果,与直接重新计算这些结果,哪种方式更节省功耗。”
多年来,芯片厂商一直呼吁提升软件的开发效率。弗劳恩霍夫应用集成信息学研究所自适应系统工程部门高效电子学主管安迪・海尼希表示:“20 年前,大部分软件都是通过底层编程语言编写的,虽耗时费力,但软件的功耗效率极高。而随着编程抽象层级的不断提升,软件的功耗效率也在不断下降。如今的软件设计方式,效率并不高,造成了大量的功耗浪费。尽管抽象化让编程变得更简单,但也让软件的能耗效率大打折扣。”
硬件层面的优化,很难弥补软件的短板。赛义夫表示:“硬件厂商一直在优化软件指令的执行方式,但软件开发者也需要更谨慎地向硬件下达指令,充分考虑后续的功耗上限管控、能耗预算平衡等问题。我与许多硬件工程师交流过,能深切体会到他们对现有软件研发流程的失望。”
结语
目前,行业已形成普遍共识:数据移动无论对性能还是功耗,都会产生巨大的成本损耗。从长远来看,唯一可行的解决方案,是从根本上减少数据移动的需求。但现阶段,行业推出的所有方案,都只是在优化数据移动的功耗。对半导体行业而言,这是一种顺理成章的策略,但也意味着,未来一旦有人解决了数据移动的核心问题 —— 而这必然涉及软件层面的突破,行业将迎来一场重大变革。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码