2026嵌入式视觉峰会：Meta提出端侧AI硬件优先设计-电子产品世界手机版

2026嵌入式视觉峰会：Meta提出端侧AI硬件优先设计

智能计算时间：2026-05-20来源：

在 2026 年美国圣克拉拉举办的嵌入式视觉峰会上，Meta Reality Labs 高级总监 Vikas Chandra 发表主题演讲，提出未来 AI 发展方向将从单纯扩大模型规模，转向在资源受限的个人设备和可穿戴设备上实现智能体能力。

Chandra 表示，未来的个人智能体将具备实时性、隐私性和上下文感知能力，可利用手机、手表、眼镜等设备收集的位置、天气、健康等数据，主动为用户提供帮助。当前端侧运行多模态感知和智能体的最大技术瓶颈是内存带宽。要实现这一目标，需要在量化、模型架构、运行时优化、视觉感知四个方向取得突破，Meta 已在这些领域完成多项技术验证。

端侧智能体在智能眼镜上的应用示意图

在量化方面，Meta 的 ParetoQ 研究表明，相同内存预算下，更大参数的低精度模型，比小参数的高精度模型准确率更高。针对极端量化的离群值问题，SpinQuant 技术通过训练过程中的矩阵平滑，实现 4 位以下量化无精度损失。研究还发现，当量化精度低于 2-3 位时，模型的学习方式会发生本质变化。

2-3 位以下量化模型学习特性对比图

在模型架构方面，MobileLLM 研究证实，相同参数规模下，深窄架构的性能优于宽浅架构。结合块权重共享、输入输出嵌入共享等技术，Meta 打造出 3 亿参数的端侧模型，性能满足实际需求。升级后的 MobileLLM-Flash 将参数规模提升至 10 亿，在多项基准测试中超越同级别模型。采用硬件在环训练技术，可针对特定硬件优化延迟，整体推理速度提升一倍。基于该架构的 MobileLLM-R1 推理模型，打破了复杂推理必须依赖云端大模型的固有印象。

在运行时优化方面，推测解码技术可将端侧推理延迟降低 2-3 倍。该技术通过小模型批量生成候选 token，再由主模型统一验证，解决了 Transformer 模型自回归生成难以并行的问题，让端侧智能体的响应速度接近人类交流水平。

在视觉感知方面，Meta 对 SAM 基础模型进行多轮优化，先后推出 EfficientSAM、SqueezeSAM，最终实现的 EdgeTAM 可在 iPhone 15 Pro Max 上以 16fps 运行视频分割与跟踪。LongVU 技术通过过滤视频冗余帧，将视频理解的 token 消耗降低一个数量级。VideoAuto-R1 模型可复用同一视频的推理结果，大幅降低多轮问答的计算成本。DepthLM 模型则实现了单目 2D 图像的 3D 深度估计，为物理 AI 应用提供基础。

深窄与宽浅模型架构性能对比图

Chandra 强调，端侧智能体必须从硬件约束出发进行设计，自下而上构建模型。未来获胜的不会是最大的模型，而是智能、高效的分布式模型，这类模型将在未来十年成为主流，支撑智能眼镜等新一代可穿戴设备的应用。

关键词：嵌入式边缘计算多模态感知

加入微信
获取电子行业最新资讯
搜索微信公众号：EEPW
或用微信扫描左侧二维码

2026嵌入式视觉峰会：Meta提出端侧AI硬件优先设计

相关文章