Microsoft发布第二代AI推理芯片Maia 200
微软将其称为性能最强的定制化云加速芯片,称 Maia 200 针对多模型 AI 推理场景进行了优化。

Microsoft发布第二代自研 AI 推理芯片Maia 200,称其为突破性推理加速器与算力核心。这一举措表明,AI 的未来竞争焦点不仅在于模型的 token 生成数量,更在于生成效率的优化。
这款 AI 芯片专为多环境异构 AI 基础设施设计,重点面向大型推理模型的推理任务开发。Microsoft声称,它是目前所有超大规模云服务商中性能最强的自研芯片,也是其部署过的最高效推理系统。
Moor Insights & Strategy 副总裁兼首席分析师 Matt Kimball 表示,微软的技术路线与其他超大规模云服务商有所不同。“其他云服务商推出的平台多兼顾训练与推理,并偏向适配自身定制化技术栈;而微软将推理环节视为战略核心,打造了面向智能体驱动 AI 环境优化的专属平台。”
Maia的实力如何
Microsoft声称,Maia 200在4位浮点(FP4)性能方面比第三代亚马逊Trainium高出3倍,8位浮点(FP8)性能则高于谷歌第七代TPU。
从数字上看,这意味着玛雅具备:
峰值时为10,145个四位浮点(FP4)太浮点浮点,而AWS Trainium3时为2,517个
峰值时为5,072个八位浮点(FP8)千万亿次浮点,而Trainium3为2,517次,Google TPU 7版本为4,614次
高带宽内存(HBM)为7 TB每秒,而Trainium为4.9,Google TPU 7为7.4
HBM容量为216GB,而Trainium为144GB,Google TPU第7版为192GB。
此外,Microsoft 表示,Maia 200 的每美元性能较其现有最新硬件提升 30%。超大容量高带宽内存(HBM)的配置,可让模型计算与数据存储尽可能靠近,提升运行效率。
“从实际应用来看,Maia 200 能够轻松运行当前最大规模的 AI 模型,同时为未来更大模型的部署预留充足算力空间。” Microsoft 方面称。
Maia 200 采用重新设计的内存子系统,通过专用直接内存访问(DMA)引擎、片上静态随机存取存储器(SRAM)以及专用片上网络(NoC)架构,改变了数据向模型的传输方式,在实现高带宽数据流动的同时,提升 token 吞吐量。
面向异构与多模态 AI 场景
Microsoft 称,Maia 200 的设计充分考虑了现代大语言模型(LLMs)的需求。其表示,具有前瞻性的客户不仅关注文本交互能力,更期待支持深度推理、多步骤智能体以及最终实现自主 AI 任务的多模态(语音、图像、视频)功能。
作为 Microsoft 异构 AI 基础设施的重要组成部分,Maia 200 将支持包括 OpenAI 最新 GPT-5.2 系列在内的多款模型,与 Microsoft Azure 无缝集成,同时为 Microsoft Foundry 和 Microsoft 365 Copilot 提供算力支持。微软超级智能团队还计划利用 Maia 200 开展强化学习(RL)与合成数据生成工作,以优化内部模型。
Info-Tech Research Group 顾问研究员 Scott Bickley 指出,从技术规格来看,Maia 200 全面超越亚马逊 Trainium、Inferentia 以及谷歌 TPU v4i/v5i。该芯片采用台积电 3 纳米制程工艺(亚马逊与谷歌同类芯片分别为 7 纳米或 5 纳米),在计算、互联与内存性能方面均表现出优势。
不过他提醒:“尽管参数亮眼,但客户在考虑从 Nvidia 等现有方案迁移至 Maia 200 大规模部署负载前,应先验证其在 Azure 生态中的实际性能;同时需确认Microsoft 宣称的 30% 成本节省,是否会通过 Azure 订阅费用下调等方式惠及客户。”
Scott Bickley 认为,“Maia 200 的理想应用场景是高吞吐量负载,且需为大型模型提供充足内存支持。”
Microsoft在之前设计挑战上的改进
Scott Bickley 提到,初代 Maia 芯片曾因 “多数为自身导致的设计与开发问题” 陷入困境,致使微软在 2024-2025 年的芯片研发进度放缓,而竞争对手则在同期加速推进技术迭代。
“通过访问OpenAI的知识产权,他们似乎正在缩小差距,”他说。而Microsoft利用台积电的3nm工艺、HBM和片上SRAM,以及推理性能优化,“可能已经以一种能够显著降低自身基础设施成本的方式进化了这款芯片。”
Moor Insights & Strategy 的 Matt Kimball 补充道,Maia 的软硬件架构对推理场景极具适配性。“大容量片上 SRAM 与 HBM 确保了稳定推理状态下的高带宽数据传输效率。” 此外,该芯片采用行业标准互联技术,“可在组件、系统、机柜乃至数据中心层面实现高性能扩展”。
Matt Kimball 指出, Microsoft 的开放式软件栈 “专为简化 Maia 芯片的推理部署流程而设计”,并强调 “这并非 Microsoft 试图取代 Nvidia 或 AMD,而是对现有生态的补充”。
Matt Kimball 还提到, Microsoft 深耕企业 IT 市场数十年,旗下软件与工具长期占据主导地位,因此比其他云服务商更了解企业客户需求。Maia 团队充分利用这一优势,推出的推理服务 “已深度融入 Azure 平台架构”。
开发者及早期用户可申请 Maia 200 软件开发工具包(SDK)预览版,该工具包提供 PyTorch 集成、Triton 编译器、优化内核库等模型开发与优化工具,同时支持访问 Maia 的底层编程语言。
目前,Maia 200 已部署于 Microsoft 位于爱荷华州得梅因附近的美国中部数据中心区域。下一步将部署至亚利桑那州凤凰城附近的美国西部 3 区数据中心,后续还将扩展至其他区域,具体部署时间与地点尚未公布。
关键词: 人工智能 Microsoft Maia 200 CPU
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码