北京人形机器人创新中心唐剑:在具身智能产业化落地中,大小脑泛化能力成核心卡点

小小MT4 来源:睿见Economy °C 栏目:MT4安卓版下载

  由深圳市人民政府主办的第二十七届高交会于2025年11月14日-16日在深圳举行。作为高交会的重要论坛“中国高新技术论坛”于11月14日举办,论坛主题为:人工智能赋能未来产业发展”。谈及具身智能行业,北京人形机器人创新中心有限公司CTO唐剑表示,要实现真正通用的具身智能,有几个必要条件需要满足:一是要实现多本体、多任务协同工作的能力;二是自主学习的能力;三是跨本体的泛化操作能力;四是全自主导航能力;五是全链路数据采集与管理能力。

  在他看来,人形机器人或者具身智能产业化落地的瓶颈,主要分两类:线性和非线性的,最核心的卡点是大小脑场景任务上的泛化能力有待提升,这就是为什么目前还没有非常大规模特别是在商业和生活场景的人形机器人落地。“非线性,假以时日可能有突破,可能很快也可能很长时间。另外一些我称之为线性瓶颈,包括自主稳定的移动、可靠性、稳定性、负载能力、工作效率以及国产边缘芯片能力、ROS系统的效率等等,假以时日一定会有非常大的提升。”

  以下为演讲实录:

  唐剑:感谢主持人,感谢主办方的邀请,今天非常荣幸代表北京人形机器人创新中心和大家分享一下我们在通用人工智能上的一些探索和思考。每次讲到具身智能,不得不提的是上世纪80年代非常著名的莫拉维克悖论,机器人和人是反着的。归根结底,具身智能的算法或者模型泛化能力不够,机器人在上世纪50年代就出现了,但至今机器人行业最大的痛点瓶颈就是机器人的泛化能力不够,或者现在的机器人基本上是在指定场景下的一个或者若干个任务,要用一款专门的机器人写一个专门的程序。我们做人形机器人和具身智能,希望解决的问题就是用一款类人形或者人形机器人,让它在任意场景完成任意任务。我相信这是具身智能行业所有同仁在努力的目标。

  在座各位都熟悉天工机器人,目前已经实现量产并且销售的是天工2.0双足机器人,身高和体重都和成年男子相似,总共42个自由度。

  天轶2.0,主要是在工业或者泛工业场景,轮臂式机器人相对比较稳定。

  我们创新中心对具身智能行业的思考,要实现真正通用的具身智能,有几个必要条件需要满足:一是要实现多本体、多任务协同工作的能力;二是自主学习的能力。这跟人一样,从出生或者学校毕业,即便是博士毕业,还是有很多工作你不知道该怎么做,所以机器人必须有自主学习的能力,因为它永远有一些任务不知道该怎么完成;三是跨本体的泛化操作能力;四是全自主导航能力;五是全链路数据采集与管理能力,前面几位嘉宾分享也提到对于具身智能行业而言数据相当于石油或者燃料。

  今年3月份我们正式发布了软件平台慧思开物,是一站式通用具身智能开发平台。一站式,提供具身智能应用开发者或者机器人应用开发者所需要的所有组件;开发平台,平台面向的用户主要是二次开发者。

  我们平台要实现的设计目标是一脑多能、一脑多机。一脑多能,基于这个平台可以开发任意机器人的应用;一脑多机,我们会适配市面上主流的机器人,目前已经适配了九款机器人。平台现在采用最主流的具身智能技术路径大脑+小脑。大脑是Agent,后面会拖着一个多模态大模型VLM,大脑要实现的功能是告诉机器人每一件事情该怎么做,How to do it。大脑功能包括空间感知、意图理解,最重要的是任务规划,把多个任务拆分成子任务并且给小脑去执行,小脑要做的是do it。小脑由两个子平台组成:一个是具身操作子平台,核心的是元技能库,每一个技能就是一个动词,比如打开、关闭、拿起、放下,这都是一些技能。现在因为模型能力还不太够,有时候也可以把一个任务(比如开门,Open本来应该是一个元技能,但因为模型泛化不够,我也可以把“Open Door”作为元技能。一个VLA也可以实现多种技能,这也有可能。另外是运控子平台,基本的站、走、跑的能力。

  利用慧思开物,8月份世界机器人大会我们做了一个多本体多任务协同工作的Demo,在这个Demo里首先有一个云端大脑,这个大脑是Brain Agent,负责任务的规划和空间的理解。小脑也是一个Agent,这里面用了四款机器人完成不同的操作,像电工大师做配电柜的操作,天工机器人搬箱子,另外两个机器人完成质检和打包任务,完成多本体、多任务的协同工作。慧思开物平台是分布式的具身智能,多智能体系统。

  下面介绍一下我们如何实现自主学习。

  自主学习要用到两个比较大的模型,这是很多具身智能企业主要发力的方向,就是大脑模型。大脑我们使用的是VLM的模型,但要用世界模型辅助帮助大脑完成自主探索和自主规划、自主学习。

  具体怎么做?我们的技术路径,我们有一篇文章发表在今年最新的AI顶会上,我们用蒙特卡洛树搜索算法,把所有可能完成这项任务的路径枚举出来。这在AIphaGo里也广泛应用,比如加热面包有不同的方法,可以用微波炉,也可以用烤箱,用世界模型模拟每一个方案。同时还有一个奖励的大模型,也是多模态大模型,对每一种方案进行打分,并且把打分的数据以及模拟数据同时用GRPO强化学习方法微调VLM大脑模型,从而实现大脑模型自主探索各种任务的执行、任务的规划。

  这个已经在世界机器人发布,上个月做的一次开源的直播,详细的在技术上解读多模态大模型,中文名字叫天鹕(Pelican),跟具身智能相关的大模型和多模态大模型做了对比,基本上能超过SOTA的水平,大概11个点左右。

  大脑模型主要的能力:一是空间理解,理解这个空间都有什么东西,更重要的是他们相互的位置关系如何;二是任务规划,把一个长程复杂任务拆解成多个子任务分发给小脑执行;三是状态预测,核心作用是判断任务是否成功执行,比如抓一个杯子没有抓住,通过传感器立即就知道了,但有些任务可能小脑以为已经完成了,但实际上没有完成整个任务,这需要大脑的大模型做判断。大小脑的协同非常重要。如果只通过小脑可能很难完成,这个例子是有一个盒子,里面已经有五包纸巾,要把第六包纸巾放进去,如果只是小脑让它放,可能就放不进去,需要大脑理解整个场景,并且标出这个纸巾应该放入的位置,小脑执行才能有一个参考,才能完成相对比较复杂的任务。

  我们发布并且开源了第一版具身世界模型WoW,众多媒体做了报道。这里面主要的创新是之前的视频生成膜型或者世界模型都是开环结构。基于输入生成一个视频就完事了。世界模型特别是具身智能相关的世界模型,最核心最重要最关键的是一定要严格遵循物理规律,并且有很强的时空一致性,否则对机器人的训练没有特别大的作用。为了提升它对物理规律的遵循,实现双模闭环训练模式,每次这个世界模型生成的视频,我们会让VLA大模型看是否遵循了物理规律,如果没有遵循,会调整它的参数让它继续重新生成一个视频,直到能比较好的遵循为止,不断提升生成质量。同时我们提了一个Benchmark里有一系列指标对具身世界模型做技术评测,我们在GitHub上有主页,这个模型已经完全开源出来了。

  这有点像Specific Model,生成的视频基本上是机器人第一人称主视角的视频,而且基本上跟机器人的任务和操作相关,我们也跟SOTA模型做了对比,在这些Benchmark上可以完全超过SOTA的水平,在视频的泛化上跟SOTA模型比也有比较大的提升。

  8月份的世界机器人大会上我们发布了跨本体泛化操作的VLA模型XR-1,稍候我们会将XR-1以及马上要开源的Robo mind2.0同时做一次直播,详细解读VLA模型,它有比较强大的泛化能力,我们用预训练模型做后训练,后训练时各个模型都用一模一样的数据,在很多任务上都可以超越SOTA的水平。

  上个月底,我们把慧思开物平台现有的大部分能力也打包起来以SDK形式开放出来,大家扫二维码就可以到慧思开物主页下载,全部免费的。10月底开放的版本里包含具身多智能体的体系架构代码,二开用户不用从头构建Agent的系统。还有我们已经具备的能力,比如长短记忆能力、语音交互、运动会,比如运动会上我们参加相关箱子搬运、抓取的Demo都包含在SDK里。目前我们主要开放给天工、天轶用户快速构建机器人的应用。在后续三四个月我们会陆续开放Pelican模型,比如天工导航能力、开关门能力等。

  这是我们参加2025年机器人运动会三个项目,也是三个不同的场景和任务,当时用了一款机器人,也是用了一种算法或者一个Model,在物料整理上是冠亚军,物料搬运上我们拿了亚军,跟我们PK的是非常典型的工业机器人,用很粗的工业协作臂,底下用AGV底盘,一手拿两个箱子,我们比它慢了大概十几秒。通过比赛,用人形或者类人形机器人,通用人工智能算法,有可能把很多场景做得很好,虽然现在可能在效率上跟专用机器人还有一定差距,但未来可期,用通用人形机器人以及通用具身智能算法有可能在很多工作上 能做到SOTA的水平。我们在行业内比较早的实现了全自主导航,人形机器人全自主导航所处环境更复杂,涉及到的物品种类以及严重的堆叠。自动驾驶主要是行人和车辆,物品颗粒度可能更小,更具挑战的是控制而不是感知,因为车有四个轮子,但人形机器人有三十个左右的关节,需要让这三十个左右的关节协同运动follow你规划出的路径,有时候要高速移动,这比较有挑战性。

  这是我们在世界人工智能大会上做的展示(见PPT)。

  我们在运动会上是唯一一个在田径赛场上实现自主奔跑的,几乎没有一次踩线,100米赛上拿了冠军,其他几个项目拿了亚军。

  我们创新中心在离公司不远的地方建了一个数据基地,有各种构型机器人各种不同场景日夜不停的采集数据,希望赋能整个行业。同时,我们打造了自己的数据平台,能完成自动的数据清洗、标注、治理等工作,也参与了一系列跟数据相关的标准,有的是牵头,有的是参与。

  这是去年发布的RoboMIND 数据集,下载量接近10万。这个月我们要再开源27万条甚至更多真机实采的轨迹数据,敬请关注。

  这是相关的铰链物品仿真数据资产,这个可以直接导入来使用,也是完全开源的。

  我们认为在人形机器人或者具身智能产业化落地的瓶颈,主要分两类,线性和非线性的,最核心的卡点是大小脑场景任务上的泛化能力有待提升,这就是为什么目前大家还没有看到非常大规模特别是在商业和生活场景大规模的人形机器人的落地。非线性,假以时日可能有突破,可能很快也可能很长时间。另外一些我称之为线性瓶颈,包括自主稳定的移动、可靠性、稳定性、负载能力、工作效率以及国产边缘芯片能力、ROS系统的效率等等,假以时日一定会有非常大的提升。

  产业化发展趋势,这算是行业的一种共识,人形机器人产业化落地基本上要经历三个阶段,不是完成第一阶段再做第二阶段,第一阶段是在结构化或者半结构化的工业/泛工业落地。第二阶段是落地在商业场景,目前在导览导购上有实实在在的订单。第三阶段,落地在生活/家庭等需要强大泛化和交互能力的场景,比如生活场景做保姆、管家,这也是众多机器人厂商觉得天花板级难度的工作,大家也都在往这个方向努力。

  上个世纪80年代随着通用个人电脑的出现,全部或者部分替代了之前一些专用的计算设备,比如像计算器、游戏机、文字处理机,本世纪第一个10年随着像iPhone的出现,把通用的智能手机设备全部或者部分替代了,我们也坚信通用人形机器人并且搭载算法的人形机器人未来能全部或者部分把一些专用机器人替代掉。我们创新中心也将全力以赴,希望和行业的各位同仁一道共同努力推动人形机器人具身智能走入千家万户,谢谢大家!