中国自研 “澜闪” 超算纯CPU架构算力达1.54艾级-电子产品世界手机版

中国自研 “澜闪” 超算纯CPU架构算力达1.54艾级

网络与存储时间：2026-05-18来源：

如今，全球顶尖超算与人工智能集群大多采用 CPU 负责通用任务与调度、AI GPU 承担大规模并行计算工作负载的模式，以此实现超高水平的艾级（ExaFLOPS）算力。但在中国，行业正呈现出截然不同的趋势 —— 近年来，受美国 GPU 出口禁令限制，国内难以获取足够 GPU 支撑超算建设，因此部署了多款纯 CPU 架构超算，用于人工智能与高性能计算（HPC）任务。例如，中国国家超级计算中心近期就部署了一台算力达1.54 艾级的超算，搭载 20480 颗基于 Armv9 架构的 CPU。

澜闪 LX2 处理器

“澜闪”（LineShine）超算的核心是定制化 Armv9 架构 LX2 处理器，专为大规模人工智能与高性能计算任务设计。深圳国家超级计算中心未公开 LX2 处理器的研发方，但乔恩・佩迪研究公司的乔恩・佩迪直接称其为华为 LX2 处理器。这款 CPU 可能是华为自研的高性能计算专用处理器、国家超算中心与华为联合设计的产品，也可能由其他受中国政府支持的高性能计算处理器厂商独立研发。

China's National Supercomputing Center

（图片来源：中国国家超级计算中心）

每颗 LX2 处理器包含 2 个计算芯粒，总计304 个 CPU 核心，分为 8 个 CPU 集群，每个集群含 38 个核心。所有核心均集成 ARM 可扩展向量扩展（SVE）与可扩展矩阵扩展（SME）单元，专门加速人工智能训练与科学计算中的向量、矩阵运算，支持 FP64、FP32、BF16、FP16 及 INT8 等多种数据格式。每个核心配备 32KB 一级指令缓存与 32KB 一级数据缓存，每个集群共享 28.5MB 二级缓存。

该处理器采用独特的内存子系统：封装内集成 32GB 高带宽内存（HBM），带宽最高达 4TB/s；封装外搭配最高 256GB DDR5 内存。富士通打造、支撑 “富岳” 超算的 A64FX 处理器也曾采用类似内存子系统，而 LX2 大概率是业界首款采用该配置、面向人工智能与高性能计算的 Armv9 架构 CPU。

每个芯粒包含 4 个 HBM 域与 4 个 DDR 域，单颗处理器共 16 个非统一内存访问（NUMA）域。HBM 内存访问对数据局部性高度敏感，而 DDR 内存在芯片内的访问更均衡，且为集群共享。这一特性促使研发人员设计了拓扑感知型内存分配与调度技术（尤其适用于人工智能训练场景），并通过专用直接内存访问引擎（SDMA）实现 DDR 与 HBM 间的数据迁移。

性能方面，单颗 LX2 处理器的 FP64 算力达60.3 万亿次 / 秒（TFLOPS），BF16/FP16 吞吐量为 240 万亿次 / 秒，INT8 算力达 960 万亿次 / 秒。尽管属于 CPU 架构，但其设计已深度优化，专为高密度人工智能与矩阵运算场景打造。相关技术论文指出，要充分发挥 SME 矩阵引擎的性能，需对核心程序、运行时调度、缓存驻留管理、HBM 与 DDR 层级间的张量分配进行全方位协同设计。

“澜闪” 超算整体配置

“澜闪” 超算由 20480 个计算节点组成，每个节点搭载 2 颗 LX2 处理器，每颗处理器含 304 个 CPU 核心。整套系统总计搭载40960 颗 LX2 处理器、2451840 个 CPU 核心，通过灵启高速网络（LQLink）互联，单节点网络带宽达 1.6 太比特 / 秒（Tb/s）。

China's National Supercomputing Center

该超算的 BF16 训练算力达1.54 艾次 / 秒（ExaFLOPS）；在训练 63 亿参数的地球观测生成式压缩模型时，峰值算力可达 2.16 艾次 / 秒。由于 xAI 等企业未公开其搭载数十万英伟达 AI GPU 的人工智能集群峰值算力，因此无法直接对比 “澜闪” 与 “巨像”（Colossus）等先进集群的性能。但据估算，xAI “巨像” 集群的理论峰值算力约为 497.9 艾次 / 秒；即便模型算力利用率仅 15%（与 “澜闪” 相当），实际算力也能达到 75 艾次 / 秒。

理论 FP64 峰值算力方面，40960 颗 LX2 处理器总计可达2.47 艾次 / 秒，但实际 FP64 运算吞吐量尚未公布 —— 这一指标受多重因素影响。

纯 CPU 架构：优势显著，亦存短板

相比传统 CPU+GPU 异构系统，纯 CPU 架构的人工智能与高性能计算超算具备多项优势，尤其适配需融合人工智能训练、海量数据读取、预处理、存储交互、模拟运算与调度管理的复杂科学任务。

由于所有运算均在同一处理器与内存空间内完成，彻底规避了异构计算的诸多痛点：无需进行高成本、高带宽占用的 CPU-GPU 数据传输，简化了编程模型，突破了 GPU 内存容量限制，无需依赖专用加速器软件栈。

此外，通过融合 HBM 与大容量 DDR 内存，同构 CPU 系统可构建更大的统一内存池，能高效处理海量科学数据集、检索增强生成任务及长上下文窗口场景。

对于人工智能赋能科学研究的场景（如控制流不规则、分布式输入输出、通信密集型流水线、运算模式难以适配 GPU 的任务），纯 CPU 架构也更具优势。

同时，纯 CPU 系统可无缝对接传统高性能计算环境，兼顾常规超算任务（如模拟运算），特别适合同时开展人工智能训练 / 推理与高性能计算的用户。

最重要的是，这类系统降低了对英伟达 GPU、CUDA 软件生态等国外加速技术与平台的依赖，对中国而言意义重大。

但纯 CPU 架构也存在核心短板：相比 GPU 架构超算，其能效比更低、高密度人工智能运算吞吐量更弱—— 这也是全球主流行业普遍采用 CPU+GPU 异构架构的核心原因。

关键词：澜闪超算 CPU 华为 Armv9

加入微信
获取电子行业最新资讯
搜索微信公众号：EEPW
或用微信扫描左侧二维码

中国自研 “澜闪” 超算 纯CPU架构算力达1.54艾级

相关文章

中国自研 “澜闪” 超算纯CPU架构算力达1.54艾级