街坊秀 街坊秀

当前位置: 首页 » 街坊资讯 »

人形机器人有了“全能大脑”

  本报讯(记者 曹政)大模型相当于人形机器人的大脑,决定着人形机器人能否听得懂人话、看得清世界、干得了活儿。近日,北京人形机器人创新中心研发的行业首款具身大一统模型“Pelican-Unify 1.0”在World Arena全球权威评测中夺冠。这款大模型可以为人形机器人配备“全能大脑”,使机器人像人一样先想象、再行动,任务完成准确率更高。

  过去,机器人配备的往往是“散装大脑”,视觉、语言、动作等不同领域各有一个模型负责;而具身大一统模型则是“全能大脑”,把机器人的看、听、想、预判、动作控制全部装进一个“神经网络”,仅一个模型就能搞定。

  其实,“散装大脑”源于具身智能的多条路线:VLM 模型擅长理解图像和指令,VLA模型能够将视觉语言输入映射为动作,世界模型能够预测未来状态。“但这些路线往往各自优化、分段连接,容易把机器人的看、想、动割裂起来。”北京人形机器人创新中心研发人员说。

  该研发人员举例,如果让机器人把插头插进插座,即使插的位置错了,机器人也不知道,更无法改正。这是因为机器人是依靠数据模仿学习的,之前采集的数据都是人类正确操作的轨迹,没遇到插错的情况。所以机器人一旦做错,本身无法纠正偏差。

  正如具身大一统模型的名字一样,Pelican-Unify 1.0的理解、推理、想象与行动均不再是孤立模块,而是实现统一理解、统一推理、统一生成,让机器人具备像人一样“先想象、再行动”的能力。

  比如,让机器人把苹果放进碗里,机器人在执行前便会先“想”面前的苹果放进碗里是什么样子的。等把苹果放进碗里后,它再把实际画面和之前想象的画面对比。如果不一致,机器人便知道自己做错了,再修改调整。

  “这是因为大模型进行了预训练,将人类日常遇到类似情况的操作轨迹数据补充给机器人。”该研发人员解释,该模型能在动作执行前生成未来视觉状态,让动作预测与未来想象相互对齐。

  据悉,北京人形机器人创新中心已经尝试将该模型部署到人形机器人“天工”和机械臂上,当工作人员下达“插入接口”“防水处理”等指令后,机器人可以自己辨别动作的先后顺序,准确无误完成操作。

  World Arena评测由清华大学联合普林斯顿大学、新加坡国立大学、北京大学、香港大学等8所顶尖机构共同发起,涵盖六大评测维度、16项细分指标、三大真实应用任务。因其学术严谨性与行业公信力,吸引了全球几乎所有头部世界模型团队参评。在激烈角逐中,“Pelican-Unify 1.0”的具身大一统模型脱颖而出,位列首位。此前,北京人形机器人创新中心研发的另一款模型也登顶World Arena评测的数据引擎赛道。

未经允许不得转载: 街坊秀 » 人形机器人有了“全能大脑”