2025年是具身智能极速狂飙的一年。从展会到论坛,人形机器人随处可见:礼宾引导、搬运料箱、分拣快递、折叠衣服、整理冰箱……热闹背后却藏着一个尴尬现实:落地难——具身智能展现出的相当部分技能尚属于按部就班的“表演”,难以应对意外。
机器人学习叠衣服
“现实世界从来不是 Demo(演示)。”智元机器人合伙人、首席科学家罗剑岚指出,真实环境充满了不可控因素,决定机器人能否真正落地的,不是它会不会做,而是它是否足够可靠、能否随机应变。
在这一背景下,智元机器人最新推出面向真实世界部署的在线后训练系统SOP。SOP重构了机器人的学习范式,将其从封闭的实验室训练,推向真实世界的“实战练兵”。
从闭门修炼到闯荡江湖
长期以来,具身智能的学习进化主要仰仗VLA技术路线,即视觉-语言-动作模型。该模型通过将人类指令与外界声音、图像、视频等信息转化为计算机可理解的语言,进而控制机器人的行为。简单来说,就是让机器人看着图片、听着声音、跟着视频来学习,是一种“离线学习”模式,往往在数采厂内进行。
早期,这套训练方法确实很有效,能够教会机器人许多“基本功”,但却难以支持机器人应对复杂且不可控的真实物理世界。罗剑岚将其比作“照着武功秘籍在山洞里练功”,等到真正下山比武,才发现对手招式千变万化,秘籍里的“套路”不够用。想要进步,只能回到山洞复盘、修改秘籍,进化效率较低。
如果说VLA让机器人第一次具备通用理解与行动能力,那么SOP的目标,则是让机器人在“集体在线学习”中快速成长。罗剑岚解释,SOP模型的核心在于构建一个学习闭环:这就好比将一群练就基本功的机器人弟子送去江湖历练,无论输赢成败,经验都会实时汇总并反馈给门派“宗师”(即云端算法模型)进行分析、总结,待师父补全招式漏洞、即时更新秘籍后,再统一传授给在外历练的弟子。如此循环往复,整个机器人群体即可在真实世界和真实任务中快速、持续进化,越用越聪明。
机器人集群
罗剑岚强调,干中学“踩过的坑”在这一过程中至关重要。根据智元发表的SOP相关论文实验结果,经过3小时在线经验训练,机器人性能可提升约30%;而额外引入80小时人类专家标注数据,性能仅提升4%。“这3个小时的数据正是来自真实场景的失败经验。”罗剑岚解释,当一个机器人犯错,所有机器人都能快速学会如何避免。这种高效的在线互学,显然胜过数采厂“填鸭式教学”。
学会应对“突如其来”
从智元公布的数据来看,在商超整理、叠衣服、纸盒装配等测试场景中,引入SOP后,机器人整体性能显著提升。比如,在物品繁杂的商超场景中,综合性能提升约33%;在叠衣服任务中,操作吞吐量提升114%。此外,经SOP训练后的机器人,在长达36小时连续运行中展现出卓越的稳定性和适应性,可有效应对真实世界中的各种“突如其来”。
机器人跳舞
目前,智元已在真实世界中部署了数十台机器人用于SOP开发。“今年预计将在真实场景中增加几个量级的部署规模。”罗剑岚说,这是具身智能迈向真实世界的第一步,机器人不应是性能固定的标品,而应成为持续进化的生命体。
在他看来,人形机器人产业未来可能从一次性交付硬件,转向软硬件一体的持续服务模式。就像自动驾驶系统,车辆售出后,软件仍在不断更新升级,机器人进厂打工、走进家庭后也将持续进化,不断优化用户体验。当然,这一进化过程仍需解决安全、隐私等问题。
2026年小目标:真正干活
据罗剑岚判断,2026年将是机器人从“能做事”到“把事情做好并真正落地”的关键节点。未来,谁在真实世界部署的机器人越多,谁就能获取更多高价值数据,训练出更好的模型,从而形成正向循环。
智元公司表示,SOP将率先推动人形机器人在工业场景中的长期稳定运行,将任务成功率提升至可规模化上线的水平。至于家庭场景,则需在预训练模型基础上,结合SOP逐步扩展任务能力。
罗剑岚透露,工业场景之外,商超、文娱及部分家庭场景,今年也在逐步布局。他希望能在上海的便利店和超市,看到机器人在真正干活。就在几天前,智元灵犀X2机器人已通过机器人租赁平台“擎天租”,进入位于上海漕河泾的美宜佳便利店,成为该门店的长期机器人员工。