中国自研 “澜闪” 超算 纯CPU架构算力达1.54艾级
如今,全球顶尖超算与人工智能集群大多采用 CPU 负责通用任务与调度、AI GPU 承担大规模并行计算工作负载的模式,以此实现超高水平的艾级(ExaFLOPS)算力。但在中国,行业正呈现出截然不同的趋势 —— 近年来,受美国 GPU 出口禁令限制,国内难以获取足够 GPU 支撑超算建设,因此部署了多款纯 CPU 架构超算,用于人工智能与高性能计算(HPC)任务。例如,中国国家超级计算中心近期就部署了一台算力达1.54 艾级的超算,搭载 20480 颗基于 Armv9 架构的 CPU。
澜闪 LX2 处理器
“澜闪”(LineShine)超算的核心是定制化 Armv9 架构 LX2 处理器,专为大规模人工智能与高性能计算任务设计。深圳国家超级计算中心未公开 LX2 处理器的研发方,但乔恩・佩迪研究公司的乔恩・佩迪直接称其为华为 LX2 处理器。这款 CPU 可能是华为自研的高性能计算专用处理器、国家超算中心与华为联合设计的产品,也可能由其他受中国政府支持的高性能计算处理器厂商独立研发。

(图片来源:中国国家超级计算中心)
每颗 LX2 处理器包含 2 个计算芯粒,总计304 个 CPU 核心,分为 8 个 CPU 集群,每个集群含 38 个核心。所有核心均集成 ARM 可扩展向量扩展(SVE)与可扩展矩阵扩展(SME)单元,专门加速人工智能训练与科学计算中的向量、矩阵运算,支持 FP64、FP32、BF16、FP16 及 INT8 等多种数据格式。每个核心配备 32KB 一级指令缓存与 32KB 一级数据缓存,每个集群共享 28.5MB 二级缓存。
该处理器采用独特的内存子系统:封装内集成 32GB 高带宽内存(HBM),带宽最高达 4TB/s;封装外搭配最高 256GB DDR5 内存。富士通打造、支撑 “富岳” 超算的 A64FX 处理器也曾采用类似内存子系统,而 LX2 大概率是业界首款采用该配置、面向人工智能与高性能计算的 Armv9 架构 CPU。
每个芯粒包含 4 个 HBM 域与 4 个 DDR 域,单颗处理器共 16 个非统一内存访问(NUMA)域。HBM 内存访问对数据局部性高度敏感,而 DDR 内存在芯片内的访问更均衡,且为集群共享。这一特性促使研发人员设计了拓扑感知型内存分配与调度技术(尤其适用于人工智能训练场景),并通过专用直接内存访问引擎(SDMA)实现 DDR 与 HBM 间的数据迁移。
性能方面,单颗 LX2 处理器的 FP64 算力达60.3 万亿次 / 秒(TFLOPS),BF16/FP16 吞吐量为 240 万亿次 / 秒,INT8 算力达 960 万亿次 / 秒。尽管属于 CPU 架构,但其设计已深度优化,专为高密度人工智能与矩阵运算场景打造。相关技术论文指出,要充分发挥 SME 矩阵引擎的性能,需对核心程序、运行时调度、缓存驻留管理、HBM 与 DDR 层级间的张量分配进行全方位协同设计。
“澜闪” 超算整体配置
“澜闪” 超算由 20480 个计算节点组成,每个节点搭载 2 颗 LX2 处理器,每颗处理器含 304 个 CPU 核心。整套系统总计搭载40960 颗 LX2 处理器、2451840 个 CPU 核心,通过灵启高速网络(LQLink)互联,单节点网络带宽达 1.6 太比特 / 秒(Tb/s)。

该超算的 BF16 训练算力达1.54 艾次 / 秒(ExaFLOPS);在训练 63 亿参数的地球观测生成式压缩模型时,峰值算力可达 2.16 艾次 / 秒。由于 xAI 等企业未公开其搭载数十万英伟达 AI GPU 的人工智能集群峰值算力,因此无法直接对比 “澜闪” 与 “巨像”(Colossus)等先进集群的性能。但据估算,xAI “巨像” 集群的理论峰值算力约为 497.9 艾次 / 秒;即便模型算力利用率仅 15%(与 “澜闪” 相当),实际算力也能达到 75 艾次 / 秒。
理论 FP64 峰值算力方面,40960 颗 LX2 处理器总计可达2.47 艾次 / 秒,但实际 FP64 运算吞吐量尚未公布 —— 这一指标受多重因素影响。
纯 CPU 架构:优势显著,亦存短板
相比传统 CPU+GPU 异构系统,纯 CPU 架构的人工智能与高性能计算超算具备多项优势,尤其适配需融合人工智能训练、海量数据读取、预处理、存储交互、模拟运算与调度管理的复杂科学任务。
由于所有运算均在同一处理器与内存空间内完成,彻底规避了异构计算的诸多痛点:无需进行高成本、高带宽占用的 CPU-GPU 数据传输,简化了编程模型,突破了 GPU 内存容量限制,无需依赖专用加速器软件栈。
此外,通过融合 HBM 与大容量 DDR 内存,同构 CPU 系统可构建更大的统一内存池,能高效处理海量科学数据集、检索增强生成任务及长上下文窗口场景。
对于人工智能赋能科学研究的场景(如控制流不规则、分布式输入输出、通信密集型流水线、运算模式难以适配 GPU 的任务),纯 CPU 架构也更具优势。
同时,纯 CPU 系统可无缝对接传统高性能计算环境,兼顾常规超算任务(如模拟运算),特别适合同时开展人工智能训练 / 推理与高性能计算的用户。
最重要的是,这类系统降低了对英伟达 GPU、CUDA 软件生态等国外加速技术与平台的依赖,对中国而言意义重大。
但纯 CPU 架构也存在核心短板:相比 GPU 架构超算,其能效比更低、高密度人工智能运算吞吐量更弱—— 这也是全球主流行业普遍采用 CPU+GPU 异构架构的核心原因。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码