星动纪元陈建宇×斯坦福Chelsea团队发布VLAW,世界模型×VLA协同进化
时间: 2026-03-02 18:09作者: 木原胜利3月2日消息,清华大学陈建宇(星动纪元创始人)团队与斯坦福大学Chelsea Finn团队再度合作,联合发布了VLAW框架。该框架首次实现了视觉-语言-动作模型与世界模型的协同迭代优化,旨在解决具身智能领域中世界模型物理保真度低、难以实际应用于机器人训练的难题。
在具身智能领域,世界模型被视为一种能在虚拟环境中让机器人进行低成本、无限次试错训练的关键工具。然而,现有模型普遍存在“盲目乐观”和物理交互模拟不准确两大缺陷,导致其生成的虚拟数据质量低下,无法有效用于提升机器人策略。
VLAW框架的核心思路是构建一个闭环系统:让VLA策略在真实世界中采集的交互数据用于校准和提升世界模型的准确性;同时,利用校准后世界模型生成的高质量合成数据,反过来进一步训练和优化VLA策略。通过这种双向迭代,逐步提升世界模型的实用性与策略的性能。
据了解,VLAW的具体工作流程分为四步:首先,在真实机器人上执行策略,收集少量包含成功与失败的在线轨迹数据;其次,利用这些数据对预训练的世界模型进行微调,以提升其物理保真度并纠正其“盲目乐观”的倾向;接着,基于优化后的世界模型,通过策略与模型的闭环交互,自动生成大规模的合成训练轨迹,并由一个微调后的视觉-语言奖励模型进行评估;最后,混合使用真实成功数据与高质量的合成数据,以监督学习的方式更新机器人策略。
实验在涉及堆叠、舀取、擦拭等复杂物理交互的五类任务上进行。结果表明,经过VLAW框架校准后的世界模型,其生成的视频在质量指标上显著提升,并能更准确地反映操作的成功与失败。在此基础上训练的机器人策略,在多项任务上的成功率获得了明显提升。消融实验也证实,减少合成数据量或移除真实校准数据都会导致策略性能下降,凸显了框架中各环节的重要性。
研究团队指出,当前工作验证了VLAW在有限任务上的有效性,未来的研究方向将集中在扩展世界模型的任务泛化能力,并融合更先进的视频生成模型,以推动其成为通用机器人策略学习的核心实用工具。(崔玉贤)