人形机器人面临的问题与突破方向

机器人   作者:祝凯 时间:2025-08-20来源:EEPW

3年前,人形机器人还处于阳春白雪的科研阶段,这两年发展迅猛。那么,人形机器人当前面临的问题是什么?突破的方向在哪里?未来的应用在哪里?在2025 年4 月上海“2025 人形机器人产业高质量发展论坛”上,国家地方共建人形机器人创新中心(简称“国地中心”)首席科学家江磊老师介绍了他的看法,并提出与产业链共同打造四位一体生态的观点。

1755670894328537.png

1   产业发展的新动向

人形机器人在各大证券市场已经有了概念股,从2024 年1 月开始,还是平平淡淡的发展,为什么到了8月,整个二级市场被急速拉动?

首先,一定是人形机器人行业找到了一个技术突破、可发力的对象。

第二,政策方面,今年伊始,国家要设立相应的重大项目,原因可能是我们想缓解劳动力缺口,以及应对未来人口老龄化的挑战。

第三,从产品端看,人形机器人迎来了GPT时刻。此时尤其令我们自豪的是在这个高科技领域的起步阶段,我国登上了世界舞台,已有一些有代表性的企业和样机。

第四,从行业角度看,千行百业都在关注。据统计,现在已有100 家左右的整机公司,预计到今年年底会有200 多家,还有数千家的核心零部件厂家,这构成了一个大生态。汽车行业、手机行业、制造行业、互联网、国央企都在投入,一个共性原因是:在一个行业处于发展的高峰期或瓶颈期,内卷就开始出现,因此这5 大行业/ 企业都找到了发力点:人形机器人,认为是破解行业规律性周期性难题的一个主要动因。国外也是如此,今年年初,苹果、三星、现代等开始设立人形机器人的硬件团队。今年阿里也在张江模力社区(注:“国地中心”搭建)设立了智能机器人的硬件团队。

在此,“通用化”会成为一个经济活动的名词。过去人们会把通用化做成技术。业界一直在争论:是做专用机器人,还是做通用机器人?其实这种争论没有什么意义,因为技术都是为场景服务的。所谓的场景驱动决定了有没有市场,厂家的产品能不能找到市场、销售出去。所以“通用化”更重要的是在一个新兴市场,单品能否过10 万台的门槛。今年人形机器人单品可能会过1 万台的门槛,但更期待未来是百万台、百亿台的产业规模。目前10 万台将是一个重要的门槛。另一个角度,如果做一个产品,单品要10 万台,它可用在哪些场景呢?这值得我们去深入思考,再从“通用化”来考虑产品定义和设计如何去做。

1755671348593396.png

2   技术发展趋势

有一个高价值飞轮的理论。2022 年/ 3 年前,人形机器人是个万亿元的潜在赛道,因此国家发布了政策来促进人形机器人的发展,使其对于公众来说不再陌生。例如3年前,很少见到人形机器人;今年不同了,也许不经意间,在电视节目或某个商场的转角就能看到人形机器人,它正在形成一个巨大的产品市场。另外从行业方面看,千行百业正在关注,也有应用的前景,因此今年是完成高价值飞轮的重要一年。那么能否实现规模和量产?高价值飞轮的核心驱动力还是来自于颠覆性的技术。

为什么2024 年8 月人形机器人的二级市场会被急速拉升?因为颠覆性技术起到了决定性的作用。

工信部提出了两大革命:“机器人+ 革命”与“人工智能+ 革命”,它们对应的都是新质生产力。“机器人+”是新质硬件生产力,“人工智能+”是新质软件生产力。可见,新质生产力是软硬一体化的典型代表。在这样的一个产业、技术、行业、规模、政策里,其中的线索一定是技术驱动了这次技术革命。

首先其背后的逻辑,以 π0 团队为代表,去年 8 月 Physical Intelligence 首次发布了通用人形机器人的视觉 - 语言 - 动作模型(VLA)。现在 VLA 已经成为一个事实标准。但是如果回到去年 8 月之前,相信 90% 的专家会认为机器人的操作还不属于预训练(注:语言 / ChatGPT 是大模型,属于预训练),我们双手的操作不属预训练,但是从 8 月开始,π0 团队发现它也是一个大规模预训练架构。大算力、大模型也是大力出奇迹的一个行业,所以被证明这种方式是可以的。

实际上,不仅 π0 发现,国内外同时 12 个团队用 10 万的数据集、30 万的数据集、现在用 80 万的数据集激励了以后,整个任务达成率也是直线上升的。

所以我们坚信规模法则与后训练将会促进这一次人形机器人最终的一个闭环。

当然还有一部分——智驾,例如特斯拉的 FSD V12 帮助印证,现在也转向 VLA。而之前做汽车的人是做端侧,但是发现 VLA 也很好用。

但是人们如果了解 VLA 的诞生,它完全不是为汽车设计的,它是为谷歌的一款类人形机器人的构型设计,结果没想到 VLA 也撑起了智驾的半边天。

当然还是要回到人形机器人,仅有 VLA 够不够?

去年 Figure 联合 OpenAI 造出了 Figure 01,可以看到大模型是在人形机器人的最上层,是采用大脑、小脑 + 肢体的分层类人架构来实现的。去年我国在“世界人工智能大会(WAIC)”上也推出了大脑、小脑、驱动架构,今年正进一步完善。

现在的问题是:人形机器人有没有一个通用的完全端到端的大模型?现在 VLA 解决了上层的,下层有一个控制模型是属于分层架构,但能不能用一个分层的完全端到端的?有一篇论文支持了这样的观点。所以三年前,语言进入了大模型( 例如ChatGPT),去年双手操作进入大模型(例如VLA),现在的问题是:下肢行走以及全身运动是不是一个大模型?坚信将来会有一个大模型,能够让人形机器人、四足机器人以及汽车来实现统一的驾驶。

人形机器人行业目前有4 类人:一类做汽车智驾的具身模型,一类做机器人上肢操作/VLA,一类做人形分层策略,还有一类做芯片/GPU。整个具身智能产业正在爆发,所有路径都需要大数据,所以在去年“国地中心”组建了训练场来推动这件事。

“国地中心”的麒麟具身智能训练场有5 项功能,除了收集数据,另外一个作用是对现在的大模型进行检测与评定,提出大模型的benchmark,例如做一个什么样的大模型更适合人形机器人?现在需要一个行业的基准线。

3   量产与应用的思考、展望

目前人形机器人在跑得快、拿得准、训得好、通用化方面都有代表性公司。最近业界在争论:是不是机器人都需要走跑跳?是不是应该进厂打工?实际上,目前有四类人在研究,跑得快的人不做抓取,做抓取的不做跑得快,做训练的人大多数都是人工智能的人,做“通用化”的人是做基础设施的。高动态的硬件平台,精准抓取的具身智能,训练的实训场,通用泛化的数据集——这4 件事,哪怕有一件事做不好,人形机器人的软硬件的终极难题就落不了地。所以我们必须要发展生态。

回到发展的起点:人形机器人未来一定是进厂打工以及为我们养老。例如养老,还有8 项卡脖子技术没有打通。人们面对未来的通用化,一定不是针对8 个问题建立8 个模型,甚至建立几百个模型来解决,人们希望构造一个完全端到端的模型,来同时解决8 项卡脖子技术,这样才能实现最终通用化的梦想。

江磊老师有个激进的预测:做硬件平台的得去做小的机器人,这样迭代的速度更快。做具身智能现在很火,但是千万不要只做操作,行走大模型已成为今年国际竞争的热点。“国地中心”等做实训场的人一定要去做自己的世界模型,以及做数据集的人要用开源的方式来完成整个生态的构建。

所以展望2025,人形机器人从当前的角度来看,四位一体的生态还没有完全建立。“国地中心”希望跟业界共同打造出我国的四位一体生态。

今年人形机器人是可以量产的,但真正的大规模的应用还没到来。我们加速建立四位一体的生态,才能加速人形机器人产业的到来。

(本文来源于《EEPW》202508)

关键词: 202508 人形机器人 国地中心

加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW

或用微信扫描左侧二维码

相关文章

查看电脑版