效仿 HBM 架构 高带宽堆叠闪存 HBF 正式问世
本文要点
全新堆叠式 3D 闪存 HBF 架构对标 HBM,专为 AI 算力处理场景打造
HBF 存储容量远超传统内存,可就近静态存放 AI 模型权重参数,并优化读取速率
今年下半年推出 HBF 工程样片,搭载该存储的 AI 加速芯片预计 2027 年面世
当下主流大模型 AI 推理任务需要调用数十亿级参数,参数数据调度搬运耗费大量时间与能耗。业界正推动高带宽闪存(HBF) 标准化落地,旨在将海量模型权重就近部署,直接与 GPU 封装集成。
闪存具备大容量、无需刷新数据的优势,但读写性能长期难以匹配高速算力运算需求。为此闪迪推出16 颗存储裸片 + 基底裸片的堆叠闪存方案,物理尺寸与 HBM 保持一致,采用专属接口协议,正式命名为高带宽闪存 HBF。
新思科技应用工程执行董事林熙伟表示:“HBF 由闪迪于 2025 年正式发布,依托闪存实现高带宽、大容量存储定位,核心面向 AI 推理应用场景。”
借助 HBF 可将全套模型权重就近部署在 GPU 封装内,无需向外调度,搭配优化后的读取架构,实现参数高速调取。
澜起科技杰出发明家史蒂文・吴称,在行业寻求新型存储层级、补齐 DRAM 与传统 NAND 闪存性能断层的趋势下,HBF 获得业内高度关注。
目前闪迪已联合 SK 海力士,将该技术提交至开放计算项目联盟 OCP 推进行业标准化。史蒂文・吴透露,闪迪计划 2026 年下半年送出首批 HBF 样片,2027 年早期推出首款搭载 HBF 的 AI 推理芯片样品。
告别远距离权重调度
AI 算力运算数据大致分为两大类:第一类为模型输入数据与各层运算中间结果,属于实时动态数据,行业统称激活值,需要实时读写调取存储空间。第二类是代表模型核心逻辑的权重参数,在单次推理运行中固定不变,理论上可直接集成部署在 GPU 等处理器内部。
但现实难题在于大模型权重数据体量庞大,远超单颗处理芯片的内置存储容量。
存内计算(IMC/CIM)技术可改造非易失性存储阵列实现向量乘法运算,实现权重一次写入、多次调用,仅调度动态激活值数据。但该方案存储容量上限偏低,无法适配当下超大参数规模大语言模型,难以普及落地。
处理器就近存储权重方案
以往超大模型权重只能存放于机架式 SSD 等远端大容量非易失性存储中,数据调度链路长、时延极高,更远端的网络附属存储设备调度效率更低。
传统三级缓存调度架构:
非易失性闪存:长期存放全套模型权重
常用权重从闪存调入 DRAM(含 HBM)缓存
最终调入处理器内部 SRAM 高速读取
首次调用权重会历经多层级调度,时延居高不下;缓存空间有限,权重频繁置换反复长距离搬运,严重拖累推理效率。
HBF 设计思路对标 HBM,采用多颗高带宽非易失性存储裸片堆叠,与处理器共封装集成。相较于 HBM 加速传统内存调度,HBF 可直接跳过 DRAM 层级就近存放权重,大幅缩短数据搬运路径,仅会对原有缓存架构带来一定调整难度。

图 1.HBF 在人工智能中的作用。它使得权重能够存储在封装内部,而非分散在网络的各个部分。来源:Bryon Moyer/Semiconductor Engineering
Expedera 联合创始人兼首席科学家沙拉德・乔利指出:“HBF 填补了高带宽访问与超大容量存储之间的技术空白,将堆叠式高速闪存直连 AI 加速芯片,实现类 DDR 内存级别的便捷调用,打破 PCIe 接口固有时延与带宽限制,简化未来算力硬件设计。”
全新架构下,HBM 仅用于存放运算过程中实时生成的激活值动态数据,模型静态权重统一交由 HBF 承载。
联电先进封装总监王百朴表示:“行业主流思路为外置存储载入模型权重,依靠 DRAM 完成实时运算调度。”
闪存技术固有短板
HBF 依托 NAND 闪存打造,核心优势为超大容量。澜起科技史蒂文・吴介绍:“同等读取带宽与成本条件下,HBF 存储容量可达 HBM 的 8~16 倍。”
西门子 EDA 存储研究总监尹钟信补充:“主流 HBM 堆叠模组最大容量 192GB,下一代产品目标 400GB,而 HBF 单堆叠模组容量已可达 3 太比特。”
闪存与生俱来的短板集中在写入性能,多重物理特性限制写入速度:
闪存单元写入前必须完成擦除操作,防止过编程损坏存储单元
闪存按区块架构设计,仅修改单比特数据也需整区块擦除重写
闪存写入存在固有物理时延
擦除后需重新写入区块内全部有效数据
即便持续优化工艺,闪存写入性能瓶颈无法彻底突破,因此HBF 无法完全替代 HBM。AI 算力系统依旧需要高速可读写内存支撑动态运算数据,这也是传统闪存架构无法逾越的壁垒。
存储行业分析师吉姆・汉迪表示:“闪存主打高性价比设计,必然牺牲部分运行速度,性能短板集中体现在写入周期,受底层物理原理制约难以改善,但闪存读取速率具备优化提升空间。”
精准定位:专攻 AI 推理场景
受写入速度制约,HBF 精准聚焦AI 推理场景,不适用于 AI 模型训练场景。吉姆・汉迪解释:“模型训练需要实时迭代更新权重参数,写入需求频繁;而推理阶段权重固定不变,仅需高频读取调用,完美契合 HBF 应用特性。”
闪迪闪存设计高级总监徐辛西娅表示,品牌已深度优化 HBF 内部读取通路,在保证堆叠裸片一体化设计的前提下,依托多阵列并行读写架构,搭配闪存颗粒、主控芯片、固件一体化协同设计,进一步压低权重调取时延,实现更低稳定时延、更均衡传输带宽。
除此之外,闪存存在擦写寿命上限,主流闪存擦写次数仅数千次,少数高端产品可达万次级别,目前 HBF 整体耐久度指标尚未明确。
业界同期还有磁阻内存 MRAM、阻变内存 RRAM 等新型非易失存储技术,但均尚未成熟落地。MRAM 技术相对完善,但无法同时兼顾高速读写与长期数据留存;RRAM 研发周期漫长,量产成本居高不下,短期内难以抗衡工艺成熟、产业链完善的 NAND 闪存,这也是闪迪选择深耕闪存优化 HBF 技术的核心原因。
徐辛西娅称:“团队长期调研各类新型非易失存储技术,最终敲定依托成熟 NAND 闪存打造 HBF,凭借闪存高密度、易扩容、低成本三大核心优势,依托现有成熟产业链,重构架构满足 AI 场景高带宽读取需求。”
核心参数与产品迭代路线
HBF 单个芯片的容量为 256GB,16 块芯片堆叠在一起的总容量为 512GB。其读取带宽为 1.6TB/秒。它将与 HBM4 的尺寸、功耗特性和物理堆叠高度相匹配。
闪迪预计今年下半年会有样品供应,2027 年会有相关系统出现。该公司还透露了未来改进的路线图。
第一代 | 第二代 | 第三代 | |
存储容量 | 1× | 1.5× | 2× |
读取带宽 | 1× | 1.45× | 2× |
功耗水平* | 1× | 0.8× | 0.64× |
* 注:数值越低代表功耗控制越优秀
闪迪主营全品类非易失性存储产品,此次联合深耕 DRAM 与闪存领域的 SK 海力士,共同推动 HBF 在 OCP 联盟内建立统一行业标准。
林熙伟强调:“HBF 无法直接引脚兼容替换 HBM,二者接口架构完全不同,全行业统一标准是技术普及的前提,目前两家企业已签署合作备忘录,后续将吸纳更多厂商参与共建生态。”
主流内存标准多由 JEDEC 协会制定,闪迪选择依托 OCP 推进标准化,徐辛西娅对此解释:“OCP 工作组目标导向性更强,可快速迭代规范协议,精准匹配 AI 行业高速创新节奏。”
针对 HBM4 可定制基底裸片的特性,徐辛西娅表示 HBF 后续会跟进相关定制化设计,现阶段优先完成行业统一规范搭建,打通软硬件全产业链适配壁垒。
行业发展展望
HBF 应用场景定位清晰,初期看似针对性较强,但其发展历程与早年 HBM 高度相似,后续市场价值将持续释放。AI 大模型推理属于海量刚需场景,市场规模持续扩张,固定权重就近存储已是行业必然趋势。
HBF 为数据中心 AI 加速芯片设计提供全新架构思路,补齐存储层级空白,为硬件架构设计师提供全新优化方向,长远来看将彻底改变 AI 算力集群的数据调度与存储布局模式。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码