新闻资讯

智元机器人GO-2模型:让机器人先想清楚再做,动作更稳

更新时间:2026-04-10 14:04

这一设计使机器人从“边看边做”转变为“想清楚再做”,降低执行偏差,提升行为稳定性。可真正伸手去执行的那一刻,动作却常常偏离规划,无法稳定完成。让机器人学会了“理解”。想象一下,你让机器人帮你整理厨房。机器人动作。在这一架构中,动作思维链自然成为慢系统的一部分。

机器人具备听懂人话的能力,然而终究老是做不对事情,这属于行业里长时间存在的痛点。智元最新的GO - 2模型着手尝试解决这个“想得出却做不了”的难题。

智元机器人GO-2模型:让机器人先想清楚再做,动作更稳

过去,机器人要不就只是会依照固定程序而动,要不就仅仅能理解模糊的语义指令,真正到了像抓杯子、叠衣服这类需要精准动作的场景之时,偏差便会越来越大,GO-2的核心是在同一个架构里将“想”和“做”打通。

从理解到执行的断点

2025年上半年,智元所发布的GO - 1模型已然能够达成视觉语言动作的统一建模。然而,在实际开展测试期间,研究人员察觉到一个颇为棘手的问题:机器人能够生成看上去极为合理的任务规划,可是在真正着手行动的时候,其动作却会出现偏离正轨的状况。

出现这种情况并非规划上的能力欠缺不够强。举例来说,当要求机器人将放置在桌子上的杯子放置挪动到水槽里面的时候,它能够清晰讲出“伸手进行抓取、抬臂实现移动、对准位置放下”这样一系列的步骤。然而,在实际进行移动的这个过程当中,手指所施加的压力以及角度常常会偏离预先设定好的值,最终致使杯子出现滑落的状况。

鸿沟出现在高层语义推理以及底层运动控制二者之间,在以往的那些传统模型之中,针对大脑所作的负责思考这一方面,还有针对于小脑所作的负责动作一方面而言,它们二者之间欠缺直接保持一致的机制,在2025年底所开展的实验方面,GO-2团队展开了确认,这种出现分离破裂产生的情况会带去致使长程任务误差累计起来超出40%的结果。

动作思维链是什么

在GO-2里,引入了一种为“动作思维链”的机制,模型并非直接从图像跳跃到电机指令,而是先去生成一段高层动作序列,这段序列对机器人的行进方式进行了描述,对机器人手部延展方向也做了说明,且阐述了动作结构究竟是怎样的。

譬如让机器人把脏碗放入洗碗机,动作思维链会输出,先走到水池边,右手向前伸展30厘米抓取碗,左转90度,手臂向下探伸15厘米放进洗碗机,这些步骤并非文字,而是系统能够直接理解的中间表示。

通过这种方式,将复杂任务拆解成有序的动作步骤,模型并非边看边做,而是“想清楚再做”。智元内部有数据显示,在使用动作思维链之后,机器人于10步以上的长程任务里执行偏差降低了52%。

异步双系统如何工作

仅仅有规划是远远不够的,在执行的进程当中会遭遇各种各样的意外情况。桌面的高度有可能和训练数据存在差异,碗的位置或许会偏离几厘米。GO-2运用异步双系统架构去处理这个问题。

频率每秒2到3次作低频运行的慢系统,承担着生成以及更新动作思维链的职责。它宛如一位项目总指挥,持续输出“下一步应当做什么”的指引。而快系统是以每秒50到100次的高频运行,实时接收慢系统的规划,并且结合当下摄像头所看见的画面生成具体控制信号。

这样一种设计致使那个规划并非是一次性下达的指令,反而是一种具备持续约束执行特性的“意图流”。在2026年1月所进行的一项测试当中,GO - 2机器人于桌面高度突然出现5厘米的改变情形之下,依旧能够稳定地达成取放任务,然而传统方法的失败率却高达73%。

训练中的噪声强制教学

以便执行模块可以因应规划里的误差,GO - 2于训练阶段导入了噪声强制教学机制,在训练执行模块之际,系统会将真实的高层动作序列用作条件,并且特意添加一些扰动。

这些扰动对实际部署里或许会出现的规划偏差做了模拟,例如,动作思维链提到手臂伸20厘米,然而在训练的时候,有可能给执行模块一个22厘米或者18厘米的指示,模型得学会在这种“接近正确却并非完美”的状况下依旧稳定地执行。

智元那个团队,运用了数量达到数万小时的,关于真实机器人操作方面的数据,来开展训练工作。这些数据所涵盖的范围,有抓取动作、放置动作、推拉动作、旋转动作等五十多种基础动作,另外还有组装任务场景、清洁任务场景、整理任务场景等二十多种复杂任务场景。如此这般的情况,致使GO - 2在面对着多种扰动现象的时候,具备了程度很强的鲁棒性。

基准测试刷新行业记录

GO - 2于多个机器人基准测试里,将SOTA成绩予以刷新。于CALVIN机器人操作基准测试当中,针对长程任务(10个以上连续动作),GO - 2的成功率达至87.3%,相较于GO - 1,提升了22个百分点。

展示于真实厨房环境里的测试表明,GO - 2达成“从洗碗机取出杯子放入柜子”这个完整流程的成功率是81%。当桌面出现随机障碍物之际,系统可以自动调整动作路径,成功率依旧维持在76%以上。

智元于2026年3月公布的技术报告里有这些数据。和之前的方法相比较而言,GO - 2最大的提升并非是单项动作的精度,而是在复杂、动态、长程任务中的整体稳定性。

从黑盒摸索到知行合一

在以往,机器人行业历经长久之日,皆处于一种“黑盒摸索”的状况之中。工程师持续不断地对感知模块予以优化,或者对控制模块进行优化,然而,始终欠缺一个能够将这两者紧密相连的中间层次。GO - 2的动作思维链恰好把这个空白给填补上了。

它使得机器人的推理进程不再仅局限于语言或者视觉范畴、而是径直于动作范畴发生,这表明模型思索的素材自身便是能够施行的步骤序列、无需再度历经一回容易出现纰漏的转换过程。

首先,异步双系统确保了这些步骤,能在真实扰动当中被稳定跟随。其次,慢系统负责想清楚大方向。然后,快系统负责边走边调整。并且,这种设计与人类执行,复杂任务时的先计划后执行,执行中微调的认知模式非常接近。

你认为机器人最应当于哪一个确切的生活场景里帮你达成任务,欢迎在评论区去分享你的想法内容,也千万不要忘记点赞转发从而让更多的人能够看到这一篇文章。