无需动作预训练,物理自回归模型让机器人“从视频学会操作”

AI科技评论 2025-09-12 15:33
资讯配图


不需要动作预训练,即可同时实现未来视频预测一致的动作轨迹生成。


作者丨拓元智慧AI团队

                                                                                         资讯配图

该论文作者来自中山大学、拓元智慧AI实验室团队,项目负责人为王广润博士。王广润,国家级“四青人才”、拓元智慧首席科学家、中山大学计算机学院副教授、博士生导师、华为战略研究院人才基金获得者、前牛津大学研究员主要研究方向包括新一代AI架构、大物理模型、多模态生成式AI等。

资讯配图

论文题目:Physical Autoregressive Model for Robotic Manipulation without Action Pretraining

论文链接:https://arxiv.org/abs/2508.09822

项目主页:https://hcplab-sysu.github.io/PhysicalAutoregressiveModel/

近日,由中山大学拓元智慧AI实验室联合提出的全新“物理自回归模型(Physical Autoregressive Model,PAR)”打通了“预判未来视频帧—生成动作轨迹”的统一链路,将视觉帧与动作共同编码为“物理token”,在无需动作预训练的前提下即可学习物理世界的动态规律。基于ManiSkill基准,PAR 在PushCube任务上实现100%成功率,并在其余任务上与需要动作预训练的强基线表现相当,显示了从大规模视频预训练向机器人操控迁移的可行路径。 

核心技术点:

资讯配图

01

研究背景

在机器人操控领域,获取大规模、标注完备的人类示教数据成本高昂。现有不少方法把语言大模型用于行动策略,但文本与动作模态之间存在天然鸿沟。相比之下,自回归视频生成模型天生擅长“基于过去预测未来”,与动作生成的目标更一致,因此成为迁移“世界知识”的理想载体。 

此外,要让机器人“知行合一”,不仅要“想得明白”,更要“做得精准”。现有的方法往往只依赖于“当前帧+前一帧”的“局部观察”,缺乏对长程历史的记忆。与之相比,具备全局记忆的自回归框架,可通过历史全量token预测未来状态,实现“视觉-动作”的全局关联建模,有效降低机器人在动态场景中(如机器人抓取、物体堆叠)因“短视”导致的“动作漂移”问题。

资讯配图

02

方法:PAR 如何把“看见的未来”变成“下一步动作”

整体框架:从“看—想—做”的自回归闭环
PAR 的核心想法是把机器人与环境的交互过程,统一描述成一串“物理token”。每个 token 同时包含这一刻的视觉画面动作片段。模型像讲故事一样按时间读入这些token,用一个因果式Transformer形成对当前情境的理解,然后同时预测下一张将看到的画面以及下一步要执行的动作。新的画面和动作再被接回序列,进入下一轮预测,形成“预测—执行—再预测”的闭环。

直观地说,PAR并不是先独立学会“看视频”,再额外学会“怎么动”,而是把两件事合在一起、每一步都边看边想边做。这种端到端的整体建模,避免了两阶段方法常见的分布偏移,也更贴近真实控制场景里“在行动中不断校正”的节奏。

资讯配图

1:整体框架:从“看—想—做”的物理自回归闭环

生成细节:在“连续空间”里同时生成视频与动作
传统做法常把视频和动作先量化成离散码,再去预测,这会引入不可忽略的量化误差。PAR 选择在连续空间里直接建模:

注意力与控制:时间因果 + 帧内双向 + 动作←视觉单向
为把“预测未来”和“生成动作”真正做成控制器可用的能力,PAR 在注意力结构上加入了三条关键约束:

  1. 时间因果。 跨时间维度只能“看过去、不能看未来”,保证推理时与真实执行一致,避免“偷看答案”。

  2. 帧内双向。 同一帧内部,图像的各个区域可以相互关注,让模型准确理解目标、障碍和机械臂之间的空间关系,从而把下一张画面预测得更可信。

  3. 动作←视觉的单向通道。 当前步待预测动作可以关注同一时刻待预测视觉表示,但反过来不行;直觉上,这等价于在网络里植入一种“从期望实现的外观与相对位置反推该怎么动”的先验(可把它理解为一种隐式逆运动学)。这使得动作更紧贴关键像素区域(例如方块或目标区),减小偏差累积。
    在工程层面,推理时配合KV-cache等增量计算,只对新增的 token 计算注意力,长序列滚动的时延增长更可控,适合在线控制。

资讯配图

03

评测与结果

资讯配图

 图

2:预测视频实际执行关联可视化

资讯配图

3:注意力图

PAR证明了“从视频世界迁移物理知识”用于机器人操控的有效性:不需要动作预训练,即可同时实现未来视频预测一致的动作轨迹生成,为解决示教数据稀缺提供新路径。

//

推荐阅读

资讯配图

飞轮“倒转”,灵巧手厂商困在夹缝里


资讯配图

高性能计算群星闪耀时


资讯配图

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
只要 3999 ?啥家务都能干!这机器人终于等到了
半导体领域现1000台具身智能机器人大订单;奥普特新增“机器人概念” | 市场观察
对标布加迪威龙,扫地机器人追觅造车曝光
AI语音机器人创业梦碎:小批量生产的残酷现实
【精选报告】人形机器人专题一:人形机器人行业:2025~2035元趋势报告(附PDF下载)
智能养老服务机器人结对攻关与场景应用试点项目名单公布!32个项目入围
清宝机器人、灵足时代、主线科技获资本亲睐,斩获新一轮融资
深度综述|200+ paper带你看懂:VLM如何将VLA推上机器人技术操作之巅!
当人形机器人也能“网购”?看东京大学团队如何打造开源双足机器人MEVITA!
快讯|成立1个月的具身黑马融资2亿;中国首个基于世界模型的机器人任务执行系统;工信部:我国已具备人形机器人全产业链制造能力等
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号