安谋科技发布“周易”X3 NPU IP,打造端侧AI计算效率新标杆

智能计算 时间:2025-12-24来源:

一、产品概述

2025年11月13日,安谋科技(中国)有限公司(以下简称“安谋科技”)在上海举行新品发布会,正式推出新一代NPU IP——“周易”X3,该产品采用专为大模型而生的最新DSP+DSA架构,兼顾CNN与Transformer,协同完善易用的“周易”NPU Compass AI软件平台,致力于为基础设施、智能汽车、移动终端、智能物联网四大领域提供AI计算核芯,打造端侧AI计算效率新标杆,加快边缘及端侧AI规模化部署。

二、性能跃迁

“周易”X3基于专为大模型而生的最新DSP+DSA架构,从定点转向浮点计算,单Cluster拥有8-80 FP8 TFLOPS算力且可灵活配置,单Core带宽高达256GB/s,相较于上一代产品,“周易”X3的CNN模型性能提升30%~50%,多核算力线性度达到70%~80%,在同算力规格下,AIGC大模型能力实现10倍增长。实测大模型性能方面,“周易”X3 在Prefill阶段算力利用率达72%,Decode阶段有效带宽利用率超100%,充分释放硬件算力潜力。

安谋科技NPU产品线负责人兼首席架构师舒浩博士阐释了“周易”X3背后的技术内核、架构设计理念与未来演进方向。他认为:“‘周易’X3的产品优势,源于通用、灵活、高效且软硬协同的系统架构设计,这一设计使其兼具广泛的行业适用性与灵活的边端侧AI应用场景匹配能力。” “周易”X3的计算架构具备四大核心亮点:

1. 通用与专用融合(DSP+DSA),通过灵活可配置的架构特性提升各场景下的计算效率;

2. 灵活可扩展,采用多核架构与层次化内存互连,支持灵活裁剪与扩展,适配多样化端侧AI场景;

3. 软硬协同的任务调度,通过软硬结合、层次化调度与资源管理架构,实现系统在多任务并行情况下对任务执行延迟与响应时间的差异化要求,满足未来端侧AI与AI智能体的需求;

4. 开放生态支持,提供硬件自定义接口、软件自定义算子,开放Model Zoo与工具链等,与客户协同共建“周易“X3软件生态。

舒浩博士也公布了“周易”NPU IP架构未来演进的六大方向,包括计算架构、数据格式、通用计算能力、生态合作、软件界面与计算扩展能力等。安谋科技将紧跟AI和大模型未来趋势,前瞻布局,不断创新。

1766560575725273.png

此外,“周易”X3在架构层面实现了多项创新,集成以下关键特性:

集成自研解压硬件WDC:使大模型Weight软件无损压缩后通过硬件解压能获得额外15%~20%等效带宽提升。

新增端侧大模型运行必备的W4A8/W4A16计算加速模式:对模型权重进行低比特量化,大幅降低带宽消耗,支持云端大模型向端侧的高效迁移。

集成AI专属硬件引擎AIFF(AI Fixed-Function)与专用硬化调度器:实现超低至5%的CPU负载与低调度延迟,灵活支持端侧多任务场景和任意优先级调度场景,确保高优先级任务的即时响应。

支持int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32多精度融合计算,强浮点计算:可灵活适配智能手机边缘部署、AI PC推理、智能汽车等从传统CNN到前沿大模型的数据类型需求,平衡性能与能效。

硬件架构:专为大模型设计最新DSP+DSA架构

“周易”X3基于专为大模型设计的最新DSP+DSA架构,从定点转向浮点计算,单Cluster拥有8-80 FP8 TFLOPS算力且可灵活配置,单Core带宽高达256GB/s,支持端侧大模型运行必备的W4A8/W4A16计算加速模式,集成安谋科技自研的解压硬件WDC,使大模型Weight软件无损压缩后通过硬件解压获得额外约15%的等效带宽,计算效率和计算密度大幅提升。

同时,“周易”X3集成AI专属硬件引擎AIFF,配合专用硬化调度器,实现超低至0.5%的CPU负载与低调度延迟,使NPU在并行处理多项AI任务时,拥有高效流畅的体验。

软件生态:优化大模型端到端性能,支持客户自定义AI开发

“周易”X3 搭载完善易用的Compass AI软件平台,全面优化大模型端到端性能。平台广泛兼容TensorFlow、ONNX、PyTorch等主流AI框架,具备业界领先的大模型动态Shape支持能力,并支持GPTQ等大模型主流量化方案、 Hugging Face模型库,与LLM、VLM、VLA及MoE等模型。

1766560667702362.png

                                                “周易”NPU Compass AI软件平台

同时,安谋科技积极构建开放生态,Compass AI软件平台已将 Parser、Optimizer、Linux Driver、TVM 及内部 IR 格式等核心组件相继开源,并拥有丰富的调试工具,可满足开发者白盒部署需求,且支持更易用的 DSL 算子编程语言,在深度开发模式下,客户可以使用平台中的Compiler、Debugger和DSL语言开发出自己的自定义算子,也可通过Parser、Optimizer等工具打造出属于自己的模型编译器,极大提升开发效率。发布初期,“周易”Compass AI软件平台已支持超 160 种算子与 270 多种模型,显著提升开发部署效率,助力客户快速实现 AI 应用创新与落地。

软硬深度协同下,“周易”X3的性能显著提升, CNN模型性能较上一代提升30%-50%,在同算力规格下,AIGC大模型能力提升10倍,这得益于16倍的FP16 TFLOPS、4倍的计算核心带宽,以及超10倍的Softmax和LayerNorm性能提升共同驱动。实测多核算力线性度达到70%-80%。实测大模型性能方面,“周易”X3 在Prefill阶段算力利用率达72%,Decode阶段有效带宽利用率在开启WDC情况下超100%,充分释放硬件算力潜力。

安谋科技自研IP矩阵,全面助力端侧AI规模化部署

1766560730382788.png

鲍敏祺表示,安谋科技已构建起全面且协同的自研IP产品矩阵,涵盖“周易NPU”、“星辰”CPU、“山海”SPU及“玲珑”多媒体系列,可为合作伙伴提供高质量、定制化的端侧AI解决方案。其中,最新推出的“星辰”STAR-MC3作为面向AIoT的高能效嵌入式芯片IP,将Arm® Helium™技术扩展到传统MCU架构,显著提升了CPU在AI计算方面的性能,可助力客户更高效地实现端侧AI应用的规模化部署。

面向未来,“AI+”浪潮将重塑千行百业。安谋科技将深耕底层技术,通过自研IP与先进Arm技术的深度融合,持续筑牢AI算力根基,为客户提供符合全球标准且精准适配本土需求的解决方案,助力端侧AI产业实现跨越式发展。

三、应用场景

覆盖基础设施、智能汽车、移动终端、智能物联网四大领域

在应用场景上,“周易”X3可广泛应用于加速卡、智能座舱、ADAS、具身智能、AI PC、AI手机、智能网关、智能IPC等AI设备,深度赋能四大核心领域,提升AI计算效率,优化AI应用体验。

基础设施:在加速卡场景中,支持CNN与大模型等多样结构的AI模型加速;

智能汽车:在ADAS系统中,可基于AI算力进行为自动泊车等辅助驾驶提供AI算力支持;在IVI系统中,支持基于语音与车内外视频图像输入的智能互动;

移动终端:在AI PC、AI手机上,可实现超分渲染,提升分辨率,并支持基于大模型的AI Agent应用;

智能物联网:在智能网关、智能IPC等设备中,提供本地AI推理能力,提升响应速度,优化智能体验。

“周易”Z1:算力32~3.75 TOPS,赋能AIoT场景,广泛支持人脸识别、人脸及人体关键点检测和文字识别等,且已进入AI智能音箱等多种产品。

“周易”Z2/Z3:算力25~5 TOPS,面向AIoT、入门级座舱等市场,支持前视辅助驾驶方案、舱泊一体方案及安全仪表盘方案,以及图像超分辨率优化等。

“周易”X1:算力10 TOPS,面向高端AIoT、汽车座舱等市场,支持驾驶员监控、乘客监控、自动泊车、AVM 360环视,以及AI图像降噪等。

“周易”X2:算力10-30 TOPS,面向高端AIoT、AI PC、AI Pad、手机等市场,现场展示了运行Stable Diffusion v1.5的文生图能力,运行CLIP的文搜图能力,可实现端侧多模态AI流畅运行。

“周易”X3:算力8-80 FP8 TFLOPS,面向基础设施、智能汽车、移动终端、AIoT等市场,现场展示了基于“周易”X3的主流大模型效果,包括运行DeepSeek-R1-Distill-Qwen-1.5B模型的文生文AI流畅对话,运行Stable Diffusion v1.5的文生图效果,运行MiniCPM v2.6模型的图片识别及图生文多模态应用等,均展现出优异的端侧大模型推理性能。

从“周易”Z1的基础感知到“周易”X3的复杂认知,这一技术演进路径清晰地表明,端侧AI正在从单一的功能实现,迈向融合多种模型、适应动态场景的“全民普及”新阶段。“周易”X3 NPU IP的设计充分预判端侧AI的“场景深化”趋势:以极致算力表现破解“多模型融合”的算力需求,以全算力类型并增强浮点运算FLOPS适配“精度动态演变”的场景差异,借助软硬协同的生态打造端侧算力底座。

关键词: 安谋科技 AI计算效率 “周易”X3 NPU IP

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版