人形机器人:实现批量应用的瓶颈技术是什么
为了实现稍微批量一点儿的人形机器人,例如上千台、上万台的应用,真正能够创造价值,而不是给人看的应用,其瓶颈技术在哪里?中国工程院外籍院士、德国国家工程院院士、德国汉堡大学教授张建伟发问道。
在8 月24 日“探索人形机器人新纪元:创新、挑战与机遇”论坛之前,已有几位中外专家提到了具身智能的数据、能源、材料、关键零部件等问题。那么,从各厂商的具体实践角度,还有哪些瓶颈技术问题?有哪些突破的建议?
图:“探索人形机器人新纪元:创新、挑战与机遇”论坛
1 已“能跑会跳”,还需“心灵手巧”
智昌公司董事长兼总经理、复旦大学教授甘中学指出,现在把人形机器人真正用到实践中,不管是用于工业、服务业,还是其他特种行业,还是有差距的。
如果把机器人分成三大类:一类是能跑会跳的,代表性企业有宇树科技等;有的心灵手巧,例如北京因时机器人公司;还有情感类的。
目前工业和服务业的一种比较关键的技术是心灵手巧技术,只有把心灵手巧做好,才能在工业界实现大部分的复杂动作,服务业也能照顾人。
目前在“能跑会跳”方面,很多企业已做得不错了,但是在“心灵手巧”上,还不够实用。无论是特斯拉还是国内做的,手的动作跟人的动作比还相差甚远。
2 能耗、仿生肌肉骨骼、人机物的接触安全性
在落地能用的挑战方面,月泉仿生公司联合创始人、吉林大学唐敖庆讲席教授总结如下。
①能耗的问题。月泉的能耗技术已经降到了原来传统机器人能耗的1/30,接近于1/32,很接近人的能耗了。
②手和手臂是真正决定机器人能够完成什么任务的关键。但是人手的技术还差得非常多,为此,月泉提出了一项新技术:“仿生拉压体”机器人技术。它是按照人的肌肉骨骼的作用原理来做的,把关节完全放开了,而且它的驱动是采用人工肌肉式的驱动——月泉专利的磁驱动的电气人工肌肉,即对于所有关节,都恢复了人体的自然生理运动,膝关节的自由度高达12 个,而现在的人形机器人的膝关节一般只有1 个自由度,但月泉的完全放开了,大腿骨和小腿骨是6 个,髌骨和大腿是6个自由度。放开之后,原来觉得可能比较难,现在迎刃而解,这样能够真正呈现人体自然的行走步态,而且能耗有显著的下降。
③必须在批量生产或落地之前解决的一件大事是人- 机- 物的接触安全性。这非常重要,因为走进家庭、和人类协同工作后,接触安全性非常重要。如果是金属的刚性部件,高速运动起来跟人近距离接触是非常危险的,而且对于贵重的仪器设备、家电、家具等都是不太友好的。所以现在提出一个概念:像人一样。因此一定要采用刚柔耦合的结构去解决。这样,它跟人接触时,你感觉就像另外一个人。而且周边的环境,包括人跟它近距离接触不会有恐惧感。
3 眼、手和小臂技术很重要
小米集团技术委副主席、手机部副总裁、机器人公司总经理许多说,要进入规模化应用,是三者的平衡:
①精度,决定了能不能有效地完成。②速度,决定了效率,是商业成功很重要的因素。③负载,决定能干多少工作,例如在汽车工厂,搬运的东西从很轻的到可能一二十公斤,变化范围较大,要用一个通用的本体实现,压力还是很大的。
回到核心技术,要解决三个核心部件的问题。
①眼。现在市场上大部分还是想用纯视觉RGB 去解决,但是到底数据规模会到多少,其精度才能提升?1 条、11 条?现在还在探讨。至少现在的1 条用生成数据训练的纯视觉模型,精度大概还是厘米级,没有像人们期待的亚毫米级。因为在工业上用的还是要用亚毫米精度去收敛,这时还是需要主动双目。因为主动双目能提供稳定的亚毫米的空间点云信息,至少目前暂时是需要的。亚毫米空间点云这种主动双目的机械视觉部件需要怎么去做?是今天产业界非常核心的一个问题。
②灵巧手。人们在探讨3 指还是5 指。工业用3 指比较合适。因为5 指有点多余,且5 指用推杆电机的方式,对可靠性有挑战。现在的灵巧手还是很容易坏的,负载大一点儿就容易坏。
③小臂。现在大臂是走工业的这一套路,基本上走25°的斜坡,拿约7~10 公斤是没有问题的。但小臂使整个载重能力急剧下降,因为小臂要协同速度和精度,这对小臂的牺牲是比较大的。能否在小臂设计上有所突破?非常期待任雷教授(月泉、吉大)的完整臂产品给人们去试用。因为现在用传统的谐波方式做的小臂有非常多的问题,要么做得很重。因为人形的腿部电机确定了之后,例如设计的是100 公斤、可以0.5 米/ 秒的速度行走,若臂的重量节省下来,余下就是给载重的。如果腿、臂做得越轻,例如做到70 公斤,就有可能有30公斤的载重空间;如果做到80 公斤,就只剩20 公斤。因此小臂的影响是非常大的。
可见,眼睛、手、小臂是未来人形机器人进入批量供应非常核心的技术。工业应用是高精度、高速度的。若往民用去拓展,就要解决任雷教授(月泉、吉大)提到的接触安全问题,但这相对比较容易解决,还是要先解决精度和速度的问题,再去解决接触安全的问题,加上各种力控——这些相对比较容易。
4 实现“技术产品市场匹配”,进行一轮轮迭代
如果批量使用,不一定是纯技术的问题。就像移动互联网时代经常提到一个词——PMF(产品市场匹配),到机器人可能叫TPMF(技术产品市场匹配),因为有些前沿的技术需要去突破,但如果要实现量产,可能是有市场需求。市场需要什么样的产品?这个产品需要什么样的技术?然后把这些匹配度做高。这可能是最先能批量生产,并且形成商业化规模的关键。
我们正处在第一轮的“技术产品市场匹配”阶段,这一轮从电驱的关节,包括无论是直线的还是旋转的,然后结合现在的算力的主控,包括结构也在快地形成标准统一。可能第一轮的技术已经成熟,接下来就看把它包装成什么产品,然后打什么市场,正好能够匹配上,例如让它踢球、搬运、进入家庭。当然,尽管家庭的需求度比较高,但目前的挑战还比较大。因此,“加速进化”会倾向于选一些偏简单的场景,对技术要求没那么高的,尽快把第一轮的技术产品市场匹配走完,然后再走第二轮。
第二轮可能需要更高的技术,能做出更好的产品,能满足更复杂的需求。
这样一轮轮迭代,可能是接下来发展的节奏。
5 “影子模式”和更为复杂的“自动驾驶”
松延动力(北京)公司联合创始人、CEO 张世璞从控制和智能的角度分析如下。
①从硬件方向看,过去的半年时间会发现,当1.0版本时,能够让它稳定地行走、奔跑;但是当强化学习、再去迭代时,再去测试跑和跳的过程时,又会暴露出新的问题。因此松延动力在思考能否去借鉴其他商业模式,例如车企的“影子模式”,把无论是后面的量产还是前面的研发体系量化,而且还能很好地去发现这次demo里的bug,怎样去debug。因为人们都在谈黑盒算法是黑盒,但实际上研发从某种程度上看,它的范式也存在一个黑盒,所以可能“影子模式”是一种比较好的方式去解决这个问题。
②在商业化过程中,不管是去工厂还是去服务业,还是去2c,自动驾驶是最重要的一环,因为不可能再让一个人站在它后面拿着手柄去遥控机器人。现在人们再去解决的一件事是“自动驾驶”,但这并不是简单的从一个位置到另一个位置,它的姿态也在发生变化。所以怎样能够把感知、视觉和强化学习结合在一起,能够让它很稳定、鲁棒地做到自动驾驶,是松延动力正在突破的一个方向。
6 能源和电机是关卡
乐聚董事长冷晓琨称,该公司今年在探索人形机器人进入到场景化、产业化时也在探讨这个问题,该公司已走到二个阶段。
● 第一阶段,今年乐聚销量最高的场景还是科研展厅和高校,约100 多台。过去一年基本把这方面的问题解决得差不多了。
● 现在第二步是进入工业场景,包括跟几家国内外车厂签了协议。这时遇到了一些新问题,并且不是人形机器人公司能搞定的。
其中一个是能源问题,现在大部分人形机器人的续航时间在1.5~2 小时,采用换电的方式也不太够用,因为它的工作节拍很快,难以频繁换电。电池容量问题是涉及基础学科的问题,在基础学科没有突破之前,我们要怎么来解决?这是产业上急需解决的挑战。
第二个是电机的功率密度问题。实际上在工业机器人时代,业界就在讨论这个问题。例如100 公斤的机械臂拉一个10 公斤的物品,如果有一天10 公斤的机械臂能拉动100 公斤物品时,很多控制、智能算法等会有一个很大的提升帮助。同样,人形机器人是一个欠驱动的系统,所以电机的功率密度问题也是一个很大的需求点。但是电机每次的功率密度提升是以2%、5% 的方式,很难有一个很大的质的突破,因此会影响接下来人形机器人产业化的落地。
因此,能源和电机问题接下来会较长时间地卡住人形机器人的发展。
7 “研发批量技术”
智平方创始人兼CEO 郭彦东称,智平方的定位是面向产业的,因此在思考怎样去研发批量的技术,推出了“通用智能机器人”。
要想在量产中使用“通用智能机器人”,所要思考的问题跟在实验室是非常不同的。智平方要投入在哪些核心技术上?
第一,“通用且精细”,或者称为“通用且稠密的感知”。实际上,智平方在成立之初就重点投入这个方面。可能有人觉得业内的感知已经做了很多年,甚至在实验室已经有了非常好的成果。但是无论是在量产汽车还是量产手机的时候会发现,当环境多变时,想要在通用的场景下实现非常精细化的感知,是一大核心挑战。因此,智平方在成立之初,就把通用且精细的感知列为最核心的技术,并且在这个方向取得了一定的进展,也得到了国家及客户的一些认可。
一些友商也有类似的看法。例如小米的许多总经理曾提到,以及硅谷的一些人形机器人公司火了一段时间之后,也都回头认为空间感知是机器人里最核心的问题之一。
第二,泛化操作。机器人不做大规模量产时,人们可能不会意识到操作的泛化是一个非常重要、一定要做的问题,包括端到端的架构。如果只是做一个原型,用代码去实现的效率是更高的。但是如果这种设备在生产实践中持续地使用,随着设备量的增大,以及环境的多变等情况,需要适应的操作/ 任务越来越多,要写的代码就越来越多。可见,在讨论是否要做端到端的这种大背景和前提下,如果把它放到要去批量的大背景下,就容易有一个非常有倾向性的答案。
第三,软硬整合能力。因为郭彦东先生在主机厂做过负责人,不管叫自动驾驶还是AI 中台,实际上,在主机厂做AI 和普通的做AI 还是很不一样的。例如2016、2017 年时,Robotaxi 公司把PC 机放在汽车后备箱里去做展示,到真正在量产的汽车里去做智能化,遇到的挑战是:怎样把算法跑在一个算力受限的端侧芯片上?怎样去适应量产装置的不完美?并不是如果发现硬件装置这个地方不是最好,我就花一两亿元/ 通过投资研发把它做好。实际上,我们要做的是如何在现有硬件性能的基础上,把智能和软件的能力发挥到极致。这是一个非常经典的、带有主机厂色彩的“研发批量技术”的思考。
8 感知、取舍、可用及成本的挑战
大连蒂艾斯公司联合创始人、总裁李博阳指出,我们做任何的智能决策或服务,感知是第一步。但机器人的感知能力目前还有很大的欠缺。
不仅是空间感知,还包括对自身、本体状态的感知,包括跟客户/ 使用者之间的关系感知,以及跟周围环境、应用场景的感知。
我们人能够做出恰当、准确的反馈,是基于充分感知到了所处的环境,以及我们现在应该做什么。现在的感知阶段往往从语音、传感器等方式获取一些信息,但是跟人相比还远远不够。
从机器人厂商角度,提到批量化时,考虑的问题比较多。
首先,做取舍:应该在什么场景下做出一个可批量化生产的产品?首先这个市场是真的有这个需求吗?如果做的是一个伪需求的项目,不管怎么做,都不可能有批量化的可能性。
其次,可用性。我们的产品要在这种需求状态下如何达到可用的状态?就是可以达到我们希望它达到的效果。现在很多机器人企业做出来的产品在需求场景下还没有达到真的可用的状态,这就意味着它现在还没有到量产的阶段。
再有,成本。如果量产,不管是零部件还是日常使用的算法,或者是大模型的支出,都应该是在成本可控的范围内。
当然,现在考虑这个问题还为时过早,现在还是一个百花齐放的阶段,可以先不去考虑量产,而是先考虑怎么能让机器人达到在应用场景下可以用,并且卖得出去,然后再考虑去降成本、批量化的问题。
9 高性价比的本体与有趣的灵魂
深圳市众擎机器人公司创始人兼CEO 赵同阳把人形机器人分为4 大部分:优秀的本体,高动态性能的理论控制算法,更具有泛化性的具身智能,非常接近人的通用AI。实际上,目前每一部分的落地都有巨大的挑战。
①本体。现在人们都走电动方案,电动方案不管从电机减速机还是到控制器,都属于传统行业。尽管手已在机械臂等行业经过一定的验证,但是在人形机器人上使用还是第一次。所以机器人未来做到工业级别,成本至少需要10~12 万元。希望其价格接近汽车,还要具有10~15 年的寿命。如果家庭买一个机器人要10~18 万元,可能希望能工作10 年以上。所以它对耐久性、可靠性要求是很高的,非常具有挑战性。
另外,人形机器人不像机器狗,狗走出什么样的步态无所谓,只要能往前走、走得快就行了。但是对于人形机器人,希望走得平稳、快,最终要走出优雅的步态。现在很多机器人走起来哗哗响、小碎步、曲着腿,这都不是人们希望看到的,希望像人一样走得虎虎生威或非常优雅,因此行走不仅是一门技术,还是一门艺术。至于达到艺术级别的时间点,可能还需要至少一两年的时间去做准备。
②在解决完运动控制算法和本体后,在通用AI 部分,希望机器人不仅有很好的躯体,还需要有足够有趣的灵魂。这一部分可能是机器人行业后面非常大的一个坑,可以类比以前的个人计算机(PC)时代:PC 时代很多厂商在做电脑硬件的时候,微软做了软件平台。所以对于通用机器人,不仅要关注到本体,可能还会有一家巨型公司成为未来的微软,不管谁家的机器人,搭载它的智能之后,会立即变得具有灵魂。
最近,赵同阳和一些做大模型的公司交流。大模型公司正在经历“百模大战”,技术发展得令人惊讶,但是很多公司在做大而全的技术——无所不知,像百科全书。机器人需要成为一个万能的上帝吗?不一定。但是,现在很多大模型的服务器里可能就住着一个万能的上帝——无论你问什么样的问题,他的回答都十分全面,但是这也造成了比较雷同。所以希望今后随着大模型的发展,每个机器人都有各自的性格,是“有趣的灵魂”。
(本文来源于《EEPW》202409)
加入微信
获取电子行业最新资讯
搜索微信公众号:EEPW
或用微信扫描左侧二维码