界面新闻记者 | 徐美慧

界面新闻编辑 | 文姝琪

过去几年,随着大模型与VLA(视觉-语言-动作模型)技术的爆发,机器人已具备了处理多任务与多指令的泛化能力。然而,当机器人试图从“实验室Demo”真正走进工厂与商超等复杂真实场景时,挑战随之而来:通用的基座模型虽认知广泛,但在面对叠衣服、处理非标品等高精度长尾任务时,往往面对懂但难做的困境。

1月7日,智元机器人合伙人、首席科学家罗剑岚在接受界面新闻等媒体采访时表示,在具身智能的真实世界部署中,在预训练出现边际效应递减的情况下,在线后训练能够高效突破VLA性能瓶颈。

智元提供的实验数据显示,在机器人学习中,3小时的真实世界在线后训练SOP(Scalable Online Post-training)带来的能力提升约为30%。相比之下,单纯增加80小时的离线专家数据,仅能带来4%的提升。

界面新闻记者了解到,智元机器人具身研究中心于近期提出SOP,这是一套面向真实世界部署的在线后训练系统,目的是让通用机器人从实验室走向规模化部署与智能化运行。

图片来源:智元

“预训练模型的能力等于出厂设置的能力。”罗剑岚在接受媒体采访时如此比喻称。他表示,现有的数采中心离线数据中心未来将更多承担“冷启动”的角色,就像汽车发电机启动发动机的那一瞬间,“但在真实世界中,机器人不可能以零成功率直接部署,也不能永远停留在出厂状态。”

按照罗剑岚的表述,智元SOP的核心逻辑是将执行与学习深度耦合。

SOP是让机器人在真实世界中实现分布式、持续的在线学习,将VLA后训练从“离线、单机、顺序”重构为“在线、集群、并行”,形成一个低延迟的闭环系统,多机器人并行执行-云端集中在线更新-模型参数即时回流。

与此同时,SOP允许机器人集群在作业过程中实时回传成功或失败的经验,包括人类接管数据。云端利用这些在线数据进行模型更新,更新后的模型参数在分钟级别内同步回所有机器人,实现集群一致进化,维持在线训练的稳定性。

从技术角度看,SOP不仅是算法层面的优化,也是对具身智能基础设施的“补课”。

罗剑岚举例称,特斯拉在自动驾驶领域之所以能跑通端到端大模型,是因为汽车行业已经拥有了标准化硬件和路网数据回流体系。相比之下,机器人行业缺乏这种社会层面的基础设施,SOP就是在软件层面构建系统框架,来支持机器人的并发数据回流与在线进化。

在具体的商业落地路径上,罗剑岚透露,智元2026年的一个重点目标,是实现真实世界的大规模部署,不仅限于结构化的工业场景,还将在今年铺开商超、便利店等商业场景,甚至部分家庭。

图片来源:智元

当然,SOP系统的落地并非没有挑战,带宽成本、算力消耗以及安全性都是非常大的挑战,当数百台机器人同时回传视频流数据时,对基础设施的压力是巨大的。

对此,罗剑岚解释称,SOP可通过动态重采样策略更高效地利用真实世界经验,“简单来说,如果集群中有100台机器人,即便其中1台噪声很大,在其余99台机器人的数据对冲下,该噪声的影响也可以忽略不计。”

此外,为了防止机器人“学坏”,系统引入了强化学习和人类干预等机制,确保负面数据和失败案例能被正确地转化为价值,通过降低错误行为的权重来引导模型优化。

值得注意的是,SOP模式可能会一定程度影响机器人的商业模式。

按照罗剑岚的说法,机器人过去被视为一次性交付的硬件产品,具备在线进化能力后转变为持续服务,可以简单类比智能汽车通过付费的软件升级提升驾驶体验,“(机器人)会从卖硬件一次性交付,到软硬件一体的持续服务,”罗剑岚预判。