把大模型刻进芯片,可行吗?
最近一家叫 Taalas 的芯片公司横空出世,引发行业关注。
2023 年成立的多伦多初创公司 Taalas,由芯片行业资深人士 Ljubisa Bajic 等人创立,其凭借一款 HC1 芯片搅动了 AI 硬件市场的格局。这家公司跳出了传统 AI 硬件的设计思路,将 AI 大模型的权重直接蚀刻到芯片的金属互连层中,实现了极致的存算合一,让芯片的推理速度达到 17000 tokens/秒,远超英伟达 H200 的约 230 tokens/秒、B200 的约 2000 tokens/秒。这一创新做法,也让行业开始重新思考:把大模型直接刻进芯片,究竟是打破 AI 硬件瓶颈的新方向,还是受限于技术迭代的小众尝试?
放弃通用性,换极致的性能与能效
Taalas 的 HC1 芯片,本质上是彻底抛弃「一颗芯片跑所有模型」的通用路线,转向「为特定模型定制硅结构」。这款芯片采用台积电 6nm 工艺和 Mask ROM 技术,将模型权重直接硬编码在硅片上,从物理层面消除了计算与存储之间的数据搬运,大幅破解了困扰行业的内存墙问题。同时,它摒弃了液冷方案和 HBM 显存,改用空气冷却,在降低功耗的同时也减少了硬件成本,配套的软件栈也因模型权重和结构的硬件固化变得极度简化,无需复杂的优化层,进一步提升了性能和能效比。
这份极致的定制化,让 HC1 芯片在性能和成本上展现出显著优势:其 token 处理速度达到英伟达最强 GPU 的近 10 倍,硬件成本仅为传统 GPU 方案的 1/20,功耗也降至 1/10。但与之相伴的,是通用性的完全牺牲——HC1 芯片仅能运行特定的 Llama 3.1 8B 模型,任何模型的更新迭代,都意味着芯片需要重新流片。当然,这种极端专用化也能扩展到更大的模型。Taalas 给出了他们对 DeepSeek R1 671B 的模拟数据。671B 参数的模型需要大约 30 颗芯片协同工作,每颗芯片承载约 20B 参数(采用 MXFP4 格式,并将 SRAM 分离到独立芯片以提高密度)。30 颗芯片意味着 30 次增量流片,但 Bajic 指出由于每次只改两层掩模,增量流片成本并不高。
这一特点也决定了 Taalas 的市场定位,它并非要成为「下一个英伟达」,而是瞄准 AI 推理的细分环节,成为该领域的专用供应商,其思路与 Groq 推出的 LPU 相似,且在专用化的道路上走得更远。
目前 Taalas 的商业模式仍在探索中,主要有自建基础设施提供 API 服务、直接销售芯片、与模型开发者合作定制专用芯片三种可能。而这一极端专用化的方案能否被市场接受,主要取决于特定应用场景对延迟的敏感程度,以及模型本身的长期稳定性。尽管存在明显的局限性,但对于高频金融交易、自动驾驶、军事装备等对延迟高度敏感且模型相对稳定的场景,HC1 芯片的技术方案仍具备不可替代的价值。
推理芯片的赛道,多元技术路线的探索
在 AI 硬件领域,GPU 在训练环节的优势依旧无可撼动,但在推理环节,GPU 却暴露了「贵且慢」的短板,这也让推理芯片成为众多初创企业的创新赛场。除了 Taalas 的硬编码方案,行业内还诞生了多种技术路线,各家都在通过放弃某一传统设计要素,换取推理环节的性能突破,形成了各具特色的技术探索。

Taalas 选择放弃软件,走硬连线的路线,将模型的权重和数据流直接变成物理连线,在其设计逻辑中,软件是纯粹的开销,指令集更是一种浪费,甚至连编译器都无需配备,模型确定后便直接流片。这种设计让芯片的功耗和成本压至极低,但容错率也降为 0,模型的任何变动都会让芯片失去使用价值。
Etched 选择把架构刻进芯片。他们的第一块 AI 芯片是一种专用的集成电路(ASIC),声称在 AI 大语言模型(LLM)推理方面击败了英伟达的 H100。由于它是 ASIC,所以 Etched 需要把 transformer 架构刻蚀在芯片上。通过把 Transformer 的计算逻辑,注意力机制、矩阵乘法、激活函数,直接硬编码进芯片的电路设计中,效率实现了指数级提升。但这同时也意味着完全丧失灵活性:无法运行循环神经网络(RNN),无法跑推荐系统模型,无法做任何非 Transformer 的 AI 任务。
Groq 则推出了专属的 LPU(语言处理单元),采用纯 SRAM 架构,摒弃了硬件调度器、缓存一致性协议和分支预测等传统设计。其核心逻辑是让硬件保持 100% 的确定性,数据的传输和运算全靠编译器在软件层面提前进行周期级的精确规划。这一方案让芯片在批处理(Batch=1)时的推理速度极快,而 Groq 的核心竞争力,也并非芯片本身,而是能调度海量并行指令的编译器软件。
Cerebras 的核心产品 WSE(晶圆级引擎),跳出了传统的芯片切割思路,直接将整块晶圆作为一颗大芯片,晶圆上集成了海量的 SRAM 和计算核心。该设计的底层逻辑,是从物理层面解决芯片间数据传输的内存墙问题,毕竟芯片间的数据交互是速度最慢、能耗最高的环节。这一方案让芯片获得了无敌的带宽,但也让制造、散热、容错的物理工程难度达到了极致。
Tenstorrent(由芯片大神 Jim Keller 创立)则选择拥抱开源与解耦,其路线是 RISC-V 指令集搭配矩阵计算单元(Tensix),打造高度可编程的数据流架构。这家企业也是四家之中最不「ASIC」的存在,Jim Keller 认为,AI 算法仍处于快速迭代的阶段,硬件设计绝不能写死,因此采用灵活的 RISC-V 指令集处理控制流,再通过异构网络将成千上万个小芯片连接起来。这一方案让芯片更接近「通用计算机」,其赌点在于未来的 AI 并非单一的 Transformer 架构,而是会发展为包含大量条件判断、逻辑推理的复杂软件工程。
回望历史:固化硬件的教训,不同层级的绑定风险
把程序刻进硬件的思路,并非 Taalas 首创,在科技发展史上早有先例,而这些先例的兴衰,也为大模型刻进芯片的方案提供了重要的参考。
上世纪 90 年代末的 3dfx Voodoo 显卡,曾是 3D 图形领域的标杆,其成功与失败都源于同一个设计逻辑——将 3D 渲染的步骤完全硬件化。它把 3D 游戏的光栅渲染步骤(顶点矩阵、光照、贴图等计算)做成「固定管线」直接刻死在电路中,专款专用的设计让其在 3D 游戏运行上的速度碾压同期产品,成为 3D 显卡的代名词。但到了 1999 年之后,开发者开始探索更丰富的 3D 效果,如水景反光、皮肤质感等,而 Voodoo 显卡因硬件固化无法支持这些新功能,最终被推出「可编程着色器」的英伟达 GeForce GPU 取代,走向破产并被英伟达收购。
2016-2018 年,AI 领域的主要算法是用于图像识别的 CNN(卷积神经网络),一大批芯片创业公司针对 CNN 的计算模式,在硬件上设计了专门的「卷积加速引擎」,这类芯片在处理人脸识别、自动驾驶的图像识别任务时,速度快、能耗低,与如今 Taalas 的思路高度相似。但 2017 年《Attention is All You Need》的发布,以及 2018 年 BERT 的横空出世,让大模型的底层数学逻辑从「局部卷积」彻底转向「全局自注意力机制」,那些将 CNN 逻辑刻死在芯片里的企业,因硬件缺乏通用矩阵计算能力,运行 Transformer 架构的效率极低,甚至无法运行,这也让第一波 AI 芯片潮中,大部分专注特定视觉算法的初创公司黯然退场。
对比这两个案例与 Taalas 的方案可以发现,三者的硬件固化程度存在本质差异:Voodoo 显卡固化的是渲染管线,即便技术迭代,只要仍运行 3D 游戏它依然能使用,只是画面效果落后;CNN 芯片固化的是算法,人脸识别等传统场景中它依旧能发挥作用,只是适用场景大幅收窄;而 Taalas 固化的是特定的模型,一旦模型更新,芯片便会直接报废。这种极致的绑定,也让 Taalas 的方案背上了最大的风险——它赌的是 AI 算法已经进入「平台期」,架构上难以再有突破性进步,但现实是,当前 AI 模型的迭代周期甚至以周计算,只要行业竞争不停止,模型的标准就无从谈起,前沿 AI 领域的技术变化,始终是悬在这款芯片头上的达摩克利斯之剑。
并非普适方案,却在特定场景中具备价值
从前沿 AI 研发的角度来看,将大模型刻进芯片的技术路线显然并不可行,但这并不意味着该方案毫无市场,在大量模型需求相对固定的场景中,它恰好能解决大模型推理延迟过长的痛点,展现出独特的应用价值。
工业领域中,大模型下车间成为趋势,很多场景并不需要性能顶尖的大模型,只需用蒸馏后的轻量模型(如 qwen2.5)就能解决传统软件定制化开发的问题,这类场景对模型的稳定性要求远高于迭代速度,将轻量模型刻进芯片,能完美解决推理延迟的问题;
政务系统的大模型应用中,部署后通常会断开外网,模型本身无法在线更新,此时将模型固化为硬件,后续的模型更新只需替换硬件,反而比软件更新更便捷;
消费电子领域,翻译、TTS 等小模型如果做成专用芯片并集成进手机等设备中,能为设备提供保底的离线智能能力,即便后续出现更优的模型,也能满足用户的基础需求,同时相比手机直接运行小模型,专用芯片还能大幅提升设备的续航能力。
而在对延迟和离线运行能力有极致要求的特殊场景中,把大模型刻进芯片的方案更是展现出不可替代的优势,成为这些领域的最佳选择之一。在智能驾驶领域,车辆遇到临时修路、交警现场指挥等突发状况时,需要的是低于 1 毫秒的「本能逻辑推理反射」,传统自动驾驶芯片仅擅长快速图像识别,无法处理这类复杂的逻辑推理,而云端大模型的反馈又存在延迟,固化了大模型的专用芯片,能实现本地的极速推理,应对各类突发状况;在高频量化金融领域,美联储讲话、非农数据、企业财报等信息的发布往往伴随市场的快速波动,专用芯片能以极高的速度,快速解析信息,判断市场走向并转化为交易信号,相当于为量化交易开挂;在军工领域,无需联网、固化在物理硬件中的大模型芯片,即便身处断网的「信息孤岛」,也能凭借出厂时的庞大参数,独立进行极速的战术分析和保密决策。
同时,人们也无需担心固化在芯片中的大模型会因无法迭代,导致知识永远停留在出厂阶段。实际上,芯片固化的只是模型本身的架构和权重,模型无法再进化,但它的逻辑推理、知识检索能力依旧保持顶级;而且刻入芯片的大模型并非失去联网能力,仍可通过联网获取最新信息,进行分析和问题解决,只是不再通过模型迭代实现能力升级。
争议与未来可能性:一场关于迭代周期的博弈
把大模型刻进芯片的方案,其未来的发展前景,将围绕着迭代周期和成本的博弈展开,这也是行业对该方案的主要争议点。
Taalas 的竞争力之一,是宣称能将「大模型转化为定制芯片」的周期,从传统的一年缩短至两个月,同时因抛弃了昂贵的 HBM 芯片,采用 6nm 工艺的专用芯片,硬件成本仅为英伟达 H100 等 GPU 方案的 1/20。从成本角度来看,这一方案的优势十分明显,按照 17000tps 的处理速度计算,单颗 HC1 芯片的处理能力堪比英伟达的 8 卡服务器,只要单芯片总成本不超过 1 万美元,就具备极强的市场竞争力。
真正的问题在于迭代周期,即便两个月的流片周期已经大幅缩短,但当前 AI 模型的迭代基本以月为单位,两个月的时间足够竞争对手推出新一代模型,芯片刚量产就面临落后的局面,这也是该方案最致命的短板。此外,将软件时代迭代最快、最不稳定的模型,绑定为硬件时代迭代最慢、最稳定的对象,这种做法本质上是牺牲了技术的抽象性,换取短期内亮眼的性能数据,这也是行业对该方案的主要质疑。
不过,Taalas 为芯片设计了 LoRa 挂载能力,一定程度上能弥补模型无法迭代的短板;同时,该方案的本质是一个经济学问题,随着大模型技术的发展,其架构和能力终将逼近极限,模型的更新周期也会逐步变长,当模型迭代速度慢于芯片的流片速度时,这一方案的经济价值便会凸显。Taalas 的赌点,正是大模型技术会进入发展停滞期,当技术成熟、模型无需频繁更新底座时,其提前布局的专用芯片方案,便能成为业界领先的存在。
结语
把大模型刻进芯片,并非能颠覆 AI 硬件市场的普适性技术路线,在前沿 AI 研发领域,因模型的快速迭代,这一方案的局限性被无限放大,难以成为主流。但不可否认的是,Taalas 的尝试为 AI 芯片的发展提供了全新的视角,其牺牲通用性换取极致性能和能效的思路,切中了 AI 推理细分环节的市场需求,为存算合一、定制化硬件的设计方向提供了重要参考。
这一技术路线的未来,终究取决于 AI 模型的迭代速度与行业场景需求的平衡。当大模型技术进入稳定期,那些对延迟、离线运行有极致要求的固定场景,终将成为大模型专用芯片的市场;而即便技术迭代始终保持高速,这一方案的创新思路,也会推动行业不断探索更高效的 AI 硬件设计,让 AI 硬件的发展朝着多元化、场景化的方向不断前进。
关键词: 大模型
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码