特斯拉转向 — 从遥操作转向纯视觉的视频学习

Xbot具身知识库 2025-08-28 17:31
资讯配图

世界是最大的数据集


特斯拉正在把 Optimus 的训练从传统的动作捕捉和遥操作转向 纯视觉的视频学习。这是一种与其自动驾驶同源的策略,数据规模庞大、风险也更高。机器人是否能真正通过“看视频”学会复杂的人类任务,仍有待验证。

特斯拉调整了 Optimus 的训练策略 —— 使用熟悉的“视频学习”模式

特斯拉已经改变了其人形机器人 Optimus 的训练方法,内部人士告诉 Business Insider。

相比之前依赖动作捕捉服和遥操作,特斯拉现在将主要依赖 视频录制 来训练机器人。

这一转变反映了埃隆·马斯克长期以来坚持的观点:AI 可以仅通过摄像头学会复杂任务。这与特斯拉在自动驾驶技术上的做法如出一辙。

从动作捕捉到“纯视觉”

今年 6 月下旬,特斯拉通知员工,Optimus 项目将更多聚焦于“视觉优先”的方式。

此前,团队使用动作捕捉服和 VR 头显来采集人类操作数据,或者远程操控机器人。现在,特斯拉主要通过 录制工人执行任务的视频 来教会机器人完成诸如“拾取物体、叠衣服”等操作。

据知情人士透露,放弃动作捕捉和遥操作后,团队能更快地扩展数据采集规模。

这一策略转变发生在 Optimus 项目负责人 Milan Kovac 辞职后。随后,AI 总监 Ashok Elluswamy 接手了该项目。

行业内的不同路径

在机器人行业,动作捕捉和遥操作是常见的训练方式。例如,波士顿动力公司就用这种方式训练 Atlas 机器人。

研究人员指出,动作捕捉能让机器人在训练阶段真正与环境进行物理交互。相比之下,仅靠视频数据更难让机器人学会如何将观察转化为现实操作。

不过,特斯拉在 5 月份就发布过一段视频,展示 Optimus 似乎能通过“看人类视频”学习任务。

Optimus 硬件负责人 Konstantinos Laskaris 在 LinkedIn 上也写道:“令人难以置信,但我们的机器人正在直接从人类视频中学习新任务!”

马斯克甚至表示,未来 Optimus 可能会通过观看 YouTube 视频 来学习。

视频采集系统:头盔 + 背包 + 5 个摄像头

知情人士透露,自从策略转变后,工人不再穿戴动作捕捉服,而是戴着头盔和沉重的背包,背包上安装了特斯拉自研的五个摄像头。

这些摄像头朝向各个方向,能为 AI 提供空间定位信息,精确捕捉手部和关节的细节动作。

工人需要按指令反复演示相同的动作,尤其是手部操作,确保动作“看起来足够人类化”。一名知情人士称,他们可能会花上几个月时间,反复执行一个简单任务。

学习的挑战

专家们指出,特斯拉必须找到方法,让 Optimus 能通过有限的动作学习到更通用的技能,而不是仅仅死记硬背具体动作。

谢菲尔德大学的机器人专家 Jonathan Aitken 表示,特斯拉可能会效仿 Physical Intelligence 等公司,用海量演示数据训练机器人学会可迁移的通用技能。

“很特斯拉的做法”

这一策略与特斯拉在自动驾驶软件上的训练方法高度一致。

与其他公司依赖激光雷达(LiDAR)和雷达不同,特斯拉坚持 摄像头优先。马斯克甚至提到,他们在中国发布自动驾驶功能时,就用公开的亚洲街景视频来训练 AI。

马斯克在 1 月的财报电话会议上承认,Optimus 的训练需求可能最终是自动驾驶的 10 倍。

“这是一个非常特斯拉的机器人策略,”Aitken 说,“他们需要的数据量可能和训练汽车时一样多。”

俄勒冈州立大学的 AI 专家 Alan Fern 则提醒,Optimus 的挑战甚至大于自动驾驶:“驾驶只是单一任务,而学习日常操作则复杂得多。光靠看视频,机器人既要理解内容,又要具备执行技能。它必须在仿真或真实环境中进行练习。”

是否值得借鉴

值得效仿,但别“仅视频”。 推荐“视频预训练 + 少量机器人演示 + 必要的力控/遥操作微调”的混合方案。

  • 把视频学习当作“表征与高层意图”的放大器,再用演示/力控把低层控制与安全“压实”。

  • 先从视觉主导任务切入,建立数据→训练→验证闭环;接触类任务逐步引入遥操作与F/T。

  • 若资源有限:先跑 R3M/VC-1 预训 + 少量BC;再为最难步骤补一小段 HIL-SERL 微调,性价比最高。

从人类视频学习机器人技能的代表性项目

1. 表征预训练 + 行为克隆

• R3M:https://github.com/facebookresearch/r3m 。(GitHub)

• VIP(Value-Implicit Pretraining):论文 https://arxiv.org/abs/2210.00030 。(arXiv)

• MVP(Masked Visual Pretraining for Robotics):GitHub https://github.com/ir413/mvp;论文 https://arxiv.org/abs/2203.06173 。(GitHub, arXiv)

• VC-1(Visual Cortex):项目页 https://eai-vc.github.io/;模型卡 https://huggingface.co/facebook/vc1-large 。(EAI VC, Hugging Face)

• GR-1(Large-scale Video Generative Pretraining for Robot Manipulation):项目页 https://gr1-manipulation.github.io/;论文 https://arxiv.org/abs/2312.13139;GitHub https://github.com/bytedance/GR-1 。(大规模视频生成预训练, arXiv, GitHub)

• Affordances from Human Videos:项目页 https://robo-affordances.github.io/;论文 https://arxiv.org/abs/2304.08488 。(人类视频中的机器人视觉可用性, arXiv)

2. 时间对齐 / Video→Action 对应

• TCN(Time-Contrastive Networks):项目页 https://sermanet.github.io/tcn/;论文 https://arxiv.org/abs/1704.06888 。(Pierre Sermanet 首页, arXiv)

• TCC(Temporal Cycle-Consistency):项目页 https://sites.google.com/view/temporal-cycle-consistency/home;论文(PDF) https://openaccess.thecvf.com/.../Dwibedi_Temporal_Cycle-Consistency_Learning_CVPR_2019_paper.pdf 。(Google 网站, CVF开放获取)

• MimicGen:项目页 https://mimicgen.github.io/;论文 https://arxiv.org/abs/2310.17596;数据集 https://huggingface.co/datasets/amandlek/mimicgen_datasets 。(MimicGen, arXiv, Hugging Face)

• Interventional MimicGen(I-MG):项目页 https://sites.google.com/view/interventional-mimicgen;论文 https://openreview.net/forum?id=ckFRoOaA3n 。(Google 网站, OpenReview)

• H2R(Human-to-Robot Data Augmentation):论文 https://arxiv.org/abs/2505.11920(HTML版 https://arxiv.org/html/2505.11920v2) 。(arXiv)

• VidBot(CVPR 2025):项目页 https://hanzhic.github.io/vidbot-project/;论文(PDF) https://openaccess.thecvf.com/content/CVPR2025/papers/Chen_VidBot_Learning_Generalizable_3D_Actions_from_In-the-Wild_2D_Human_Videos_CVPR_2025_paper.pdf 。(Hanzhi Chen, CVF开放获取)

3. 视频模仿 + 强化学习(仅视频/无动作标签)

• GAIfO(Generative Adversarial Imitation from Observation):论文 https://arxiv.org/abs/1807.06158 。(arXiv)

• BCO(Behavioral Cloning from Observation):论文 https://arxiv.org/abs/1805.01954(IJCAI PDF https://www.ijcai.org/proceedings/2018/0687.pdf)。 (arXiv, IJCAI)

• LIV(Language-Image Value):主页 https://penn-pal-lab.github.io/LIV/;论文 https://arxiv.org/abs/2306.00958。 (Penn Pal Lab, arXiv)

• Context Translation(Imitation from Observation via Context Translation):论文 https://arxiv.org/abs/1707.03374 。(arXiv)

• Inverse-Dynamics Disagreement(IDDM, NeurIPS 2019):论文 https://arxiv.org/abs/1910.04417(NeurIPS PDF https://papers.neurips.cc/paper/8317-imitation-learning-from-observations-by-minimizing-inverse-dynamics-disagreement.pdf)。 (arXiv, NeurIPS Papers)

• MimicPlay:项目页 https://mimic-play.github.io/;论文 https://arxiv.org/abs/2302.12422。 (MimicPlay, arXiv)

资讯配图
资讯配图


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号