2026嵌入式视觉峰会:Meta提出端侧AI硬件优先设计
在 2026 年美国圣克拉拉举办的嵌入式视觉峰会上,Meta Reality Labs 高级总监 Vikas Chandra 发表主题演讲,提出未来 AI 发展方向将从单纯扩大模型规模,转向在资源受限的个人设备和可穿戴设备上实现智能体能力。
Chandra 表示,未来的个人智能体将具备实时性、隐私性和上下文感知能力,可利用手机、手表、眼镜等设备收集的位置、天气、健康等数据,主动为用户提供帮助。当前端侧运行多模态感知和智能体的最大技术瓶颈是内存带宽。要实现这一目标,需要在量化、模型架构、运行时优化、视觉感知四个方向取得突破,Meta 已在这些领域完成多项技术验证。

端侧智能体在智能眼镜上的应用示意图
在量化方面,Meta 的 ParetoQ 研究表明,相同内存预算下,更大参数的低精度模型,比小参数的高精度模型准确率更高。针对极端量化的离群值问题,SpinQuant 技术通过训练过程中的矩阵平滑,实现 4 位以下量化无精度损失。研究还发现,当量化精度低于 2-3 位时,模型的学习方式会发生本质变化。

2-3 位以下量化模型学习特性对比图
在模型架构方面,MobileLLM 研究证实,相同参数规模下,深窄架构的性能优于宽浅架构。结合块权重共享、输入输出嵌入共享等技术,Meta 打造出 3 亿参数的端侧模型,性能满足实际需求。升级后的 MobileLLM-Flash 将参数规模提升至 10 亿,在多项基准测试中超越同级别模型。采用硬件在环训练技术,可针对特定硬件优化延迟,整体推理速度提升一倍。基于该架构的 MobileLLM-R1 推理模型,打破了复杂推理必须依赖云端大模型的固有印象。
在运行时优化方面,推测解码技术可将端侧推理延迟降低 2-3 倍。该技术通过小模型批量生成候选 token,再由主模型统一验证,解决了 Transformer 模型自回归生成难以并行的问题,让端侧智能体的响应速度接近人类交流水平。
在视觉感知方面,Meta 对 SAM 基础模型进行多轮优化,先后推出 EfficientSAM、SqueezeSAM,最终实现的 EdgeTAM 可在 iPhone 15 Pro Max 上以 16fps 运行视频分割与跟踪。LongVU 技术通过过滤视频冗余帧,将视频理解的 token 消耗降低一个数量级。VideoAuto-R1 模型可复用同一视频的推理结果,大幅降低多轮问答的计算成本。DepthLM 模型则实现了单目 2D 图像的 3D 深度估计,为物理 AI 应用提供基础。

深窄与宽浅模型架构性能对比图
Chandra 强调,端侧智能体必须从硬件约束出发进行设计,自下而上构建模型。未来获胜的不会是最大的模型,而是智能、高效的分布式模型,这类模型将在未来十年成为主流,支撑智能眼镜等新一代可穿戴设备的应用。
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码