“机器人是人工智能和物理世界交互的最优化选择之一,能够复现人工智能积累的信息和数据,在生产、教育、装配、交互及危险场景等领域发挥作用。”上海交通大学博士生导师、上海人工智能研究院首席科学家、上海智元新创技术有限公司联合创始人闫维新在“2024(第五届)科创先锋大会暨产业创新跨区域协同发展圆桌会议”上表示。

2024澎湃科创先锋|闫维新:通用AI与机器人结合引领产业变革

上海交通大学博士生导师、上海人工智能研究院首席科学家闫维新

11月13日,2024澎湃科创先锋大会暨产业创新跨区域协同发展圆桌会议在上海成功举办。本次大会由澎湃新闻主办,南通市科技局、南通报业传媒集团协办,上海临港集团、江苏启东吕四港经济开发区特别支持,同时特别鸣谢阳光保险集团的支持。大会以“科创向新,共促提质”为主题,旨在汇聚政府领导、产业领袖、学术专家及科创生态链的知名人物,共同探讨科技创新与产业协同发展的新路径,为推动经济社会的高质量发展贡献力量。

2024澎湃科创先锋|闫维新:通用AI与机器人结合引领产业变革

在论坛上,闫维新展示了人工智能技术的巨大潜力,分享了通用人工智能技术在机器人领域的最新应用成果,并探讨了未来机器人产业的发展趋势。他提到,人形机器人将具备人类的形态,对智能化要求更高,并且是多交叉融合的行为,对人形机器人而言或者对机器人而言涉及电子、机械、硬件、软件、人工智能等。而基于此,未来机器人产业的发展将会带来产业的变革。

以下是演讲全文:

我给大家进行一次交流,关于人工智能和机器人,机器人是建立人工智能和整个物理世界的一个最优化的选择之一,可以将之前的人工智能所积累的知识,通过机器人来复现,处理在生产、教育、装配、交互,特别是危险场景中很多人不太喜欢的、在危险环境中难以胜任的一些事情。

下面是我本人博士、博士生导师在机器人应用领域涉及过的若干项目。这是一个最早做的跟烹饪相关的机器人作业单元,是做汉堡包的。它通过轨迹规划完成整个工艺流程,在整个过程中对整个烹饪工艺进行解析,解析完之后凝练出做若干个动作的元素,通过机器人复现,20秒钟左右一个汉堡包可以做出来。冬季奥运会的机器人餐厅就是类似的方案,当时的汉堡包、炒、蒸、烧等烹饪机器人方案都是我参与设计的。当时根据表面的情况判断烹饪情况,这也是用传统工具来做炸薯条,就像人一样,原材料出来之后就直接倒进油锅,它没有办法应对突发情况,早先的人工智能还没有参与机器人餐饮领域,当时的机器人泛化性有限,鲁棒性有限,很多突发情况做不了。

人工智能实际上推动了人形机器人产业,为什么会有人形机器人这么火爆?一个是工业机器人和协作机器人夯实了关键零部件的基础。第二个是大语言模型的出现让人机交互成为可能,同时这种思路为大样本、大算力情况下的具身智能垂类模型的出现奠定了基础,可以将人形机器人完成早先难以完成的、具备一些自主决策的工作,它将是未来产业再造基础的牵引,我思考过一件事情,就是新能源汽车的存在,是对原有的汽车的一个增量、升级,而人形机器人是有望重塑整个产业链布局。

第一个是柔性制造方向,包括焊接、喷涂等,都可以在工业机器人上做,但是很多是与装配类、柔性相关的,枯燥乏味的场景还有很大的空间。第二是特种替身方面,这是我最看好的。我去了一趟广州南方电网的盾构机现场,广东不像上海,上海冲积平原,地质比较单一,但是到了广东,当通过人口更换刀头的时候,一旦造成失衡,很容易造成人员伤亡,危险场景替代是现有人形机器人或者现有机器人具身智能或者远程操作最有机会的情况。第三个是教学科研。

现在是第四代机器人,第四代通用机器人相当于是一个机器人本体能够在某些领域完成比较通用的泛化能力,人也是不一样的,有的人像刘翔可以跑得特别快,有的人脑袋特别好,机器人本体也是不同的构型,只是在某一大类上面可以做到通用性。第二个观点,人形机器人今后下工厂,而工业和协作机器人在已有工厂上的智能化升级比人形机器人落地更早,因为这种情况下只用在原先的基础上增加了感知、算法、算力之后,其实能够完成很多以前难以完成的工作,所以通用人形机器人、通用人工智能不是只赋予人形机器人,而是对所有具备操作能力的机器人赋予一定的自主规划、自主决策、自主执行能力。

到2028年之后,第四代机器人将会有比较大的发展,去年是人形机器人的元年,今年是小批量的应用落地,我们也在做若干的试验,包括分拣、PTC工作,在我们的更高算力的情况下,在样本空间更大的情况下,在整个应用利用垂类模型更丰富的情况下,我们将会在2028年之后迈向第四代整个机器人的时代。

整个国内外机器人化的发展情况,我们国内做得很早。最早是我们觉得人形机器人是科研领域用的,后来发现,用两三万美金完成一个人形机器人及其背后的具身智能处理能力是可行的。江浙沪地区基本可以找到机器人所需要的零部件,但在算力部分我们是有差距的,同时国内也有公司在做相应的算力部署,在样本方面我觉得是我们最大的优势,海量的应用空间,尤其是江浙沪长三角这边应用的整个包罗性可以为机器人应用落地提供大量的机会。

人形机器人将具备人类的形态,对智能化要求更高,并且是多交叉融合的行为,对人形机器人而言或者对机器人而言涉及电子、机械、硬件、软件、人工智能,其实这个事情今后的发展情况会带来产业的变革,产业变革会分为几个方面。

第一是可认知能力,它会越来越聪明,另外是辨识,高效高速开发能力,增强迭代能力、大量的制造能力和超低成本的国产化制造能力,在五个技术方面进行重大突破,计算、运控、能源、驱动和整个结构,尤其是我的本体。

目前来说,to B汽车产业为例,在一些复杂场景中还是由人工完成,而现有的工业机器人基本上不具备这种能力,包括整个机器人的自主决策能力、触觉和视觉的交叉融合感知下的任务执行能力,对于这种情况下,车厂大量需求这样的工种,对于人形机器人而言,它会有一定的空间。

有一个想法,大家一直觉得我们的腿真的是很完美的吗?其实除了腿以外,轮子其实也是很完美的,针对足式来说,在外高动态特性以及比较需要强的负载下的抗扰动力强的情况下,需要刚柔耦合的设计,最后完成机器人脑的布局,小脑、脑干、大脑,脑干是做每个关节速度环、电流环以及扭矩环的控制,小脑是做运动控制、步态控制、上肢的运动控制,大脑是做感知决策相关的。有了这个设计之后,需要一个端侧算力底座,目前来说国内还是比较欠缺的,我们现在还需要努力完成,这种卡脖子卡得非常难受。

人形机器人算力包括,电关节、AI计算和超算中心,这是整个产业链新的布局。这个新的布局之后,我进行了深入思考,目前人形机器人如何被我的人工智能赋予?一个是灵巧操作能力,现在的人形机器人看起来只是走来走去,它们实际上能做什么呢?它要干活,灵巧操作能力和具身智能的整个平台搭建,而对于整个灵巧操作能力来说,灵巧手做了很多年,现在的灵巧手关键在于特定构型。

后面我做了一个清单,包括任务清单,以居家服务机器人为主,并且包括提拉端抓按压等若干个动作进行尝试。之后我再把我的具身智能算法进行赋能,完成我的整个感知,加了很多传感器,而且它能够做出若干超人的动作,我们人只能做到400到760纳米的可视范围,而机器人可以在红外、紫外光谱下进行感知。第二个事情是可以像我们的背后也可以加摄像头,所以这样的情况下可以做全场景的感知,有可能完成在感知方面超越人的能力,同时在运动执行方面超越人的能力。

然后我做了一个厨子,我们完成了智能餐厅,把常规类的烹饪结合在一起,进行一个人形机器人的应用场景搭建,完成了几个烹饪工艺,之后还有清洁部分,左边是我们整个对烹饪相关工具类和整个操作的清单,逐一完成。有了这个之后,我们就要做具身智能,具身智能要完成碳基生命和硅基生命的结合,它的结合就是人机共融模式,用具身智能来赋能人形机器人,而这个时候需要我们有一个标准的数据采集平台,之后有整个训练集,采集人的动作、环节动作,作为样本、作为模型的建立,建立完之后复现出来。我们现在发现一件事情,在一些特定工作训练的时候,万级以上的数据可以大大提高任务完成的成功率,可以达到98%,然而长程动作还在攻克过程中。

在建立数据采集平台之后,我们可以展望通用人工智能与通用机器人的结合,包括我个人、我参与的公司,包括在上海交通大学个人想做的事情。第一个,我会做一个数据采集平台,并不简简单单是一个远程遥操作,而是把机器人抓取到的物体的力反馈到人类。第二是20度以上的灵巧手,第三是针对人形机器人做特定的关节模组,之后我会做一些串并联的混合,包括跟人的姿态不太一样的机器人。其实已经开始了,明年年后大家可以看到,我的研究方向还包括开放型场景的具身智能研究,很多特种行业,包括危险场景处置,主被动液电混合模式复杂地形应用。