1月6日,智元具身研究中心提出SOP(Scalable Online Post-training)——一套面向真实世界部署的在线后训练系统。

上证报中国证券网讯(记者 孙小程)1月6日,智元具身研究中心提出SOP(Scalable Online Post-training)——一套面向真实世界部署的在线后训练系统。这是业界首次在物理世界的VLA后训练中,系统性地融合在线学习、分布式架构与多任务通才性,使机器人集群能够在真实环境中持续进化,让个体经验在群体中高效复用,从而将“规模”转化为“智能”。

实验结果说明,在各类测试场景下,结合SOP的后训练方法均得到了显著的性能提升。相比预训练模型,结合SOP的HG-Dagger方法在物品繁杂的商超场景中实现了33%的综合性能提升。对于灵巧操作任务(叠衣服和纸盒装配),SOP的引入不仅提升了任务的成功率,结合在线经验学习到的错误恢复能力还能明显提升策略操作的吞吐量。

此外,结合SOP的HG-Dagger方法让叠衣服的相比HG-Dagger吞吐量跃升114%。SOP让多任务通才的性能普遍提升至近乎完美,不同任务的成功率均提升至94%以上,纸盒装配更是达到98%的成功率。

智元称,SOP 改变的不仅是训练范式,更是机器人系统的生命周期。如果说 VLA 让机器人第一次具备了通用理解与行动能力,那么 SOP 所做的是让众多机器人的经验共同驱动智能的快速成长。