LeCun的世界模型单GPU就能跑了

量子位 2026-03-24 12:13
听雨 发自 凹非寺
量子位 | 公众号 QbitAI

LeCun世界模型最新进展,开源了一套极简训练方案,单GPU就能跑

这套方案叫LeWorldModel,它基于JEPA架构,实现像素输入直接预测未来,速度快到离谱,完整规划仅需1秒

LeCun的世界模型单GPU就能跑了图1

它能只看像素画面、不用复杂技巧、单GPU就能稳定训练,学会预测 “我做这个动作,世界会变成什么样”,用来帮机器人、智能体做规划和控制,又快又稳又好用。

LeCun的世界模型单GPU就能跑了图2

实际效果也很不错:

技术架构:把JEPA简化到本质

团队介绍,以往的JEPA方法通过启发式方法或技巧(例如EMA、停止梯度法、预训练表示、掩码或复杂的损失函数)来避免模型崩溃。

然而,这些技巧使得JEPA训练不稳定且难以进行。

LeCun的世界模型单GPU就能跑了图3

而LeWM的思路是把JEPA简化到本质:用编码器把图片变特征,用预测器根据动作猜下一个特征,再用高斯正则防止坍塌,全程端到端、极简稳定训练。

其架构只用到两个核心组件——编码器+预测器

编码器:把画面压缩成一小串数字(latent特征)

预测器:根据当前特征 + 你要做的动作,预测下一刻的特征

LeCun的世界模型单GPU就能跑了图4

最关键的创新在于,它只用了两个损失:

预测损失:让预测器尽量猜对下一帧的真实特征,用简单的MSE均方误差。作用是让模型学会世界的动态规律。

SIGReg正则损失:强制让所有特征向量服从标准高斯分布。作用是防止模型 “摆烂坍塌”(所有画面输出一样的特征)

所以最终的总损失 = 预测损失 + λ × SIGReg正则损失。

LeCun的世界模型单GPU就能跑了图5

正则化权重 λ是唯一需要调优的超参数,极大简化了训练流程,完全不需要以往的额外方法,这也是LeWM稳定、好用的根本原因。

实验结果:完胜此前JEPA方法

先放结论:LeWM完胜之前的端到端JEPA 方法(PLDM),和依赖大模型预训练的DINO‑WM打成平手甚至更强,同时训练更简单、速度更快、参数更小

团队在4个经典机器人/控制任务上进行测试,并与DINO-WM和PLDM这两种基于JEPA的最先进方法进行比较。

4个任务分别是Push-T(推箱子)、Reacher(机械臂够目标)、OGBench-Cube(3D 机械臂抓方块)、Two-Room(2D 导航)

LeCun的世界模型单GPU就能跑了图6

结果显示:

LeCun的世界模型单GPU就能跑了图7

在2D和3D任务中,LeWM缩小了与基于基础模型的世界模型(例如 DINO-WM)之间的差距,同时优于端到端基线PLDM。

值得注意的是,LeWM的规划速度比DINO-WM快48倍:不到1秒vs约47秒。

原因是LeWM能把观测数据缩小约200倍,AI预测未来时算得更快、更省力,让基于特征的世界规划几乎可以实时运行

LeCun的世界模型单GPU就能跑了图8

此外,LeWM是真懂物理。

模型把画面变成一串数字(latent),团队在训练好的LeWM后面,接入一个简单的小探测器,让它只靠latent数字,去预测机器人/方块的位置、方块的角度、机械臂指尖坐标。

结果位置预测几乎100%准确,角度预测也非常准,比之前的PLDM强很多,和大模型DINO差不多。

LeCun的世界模型单GPU就能跑了图9

为了直观展示LeWM的学习效果,团队还额外训练了一个用于可视化的小解码器,展示了三类画面:真实视频、模型 “看到”的还原视频、以及模型的未来预测视频。

LeCun的世界模型单GPU就能跑了图10

可以看到,LeWM不仅能准确理解当前场景,还能正确预测物体接下来的运动,真正抓住了环境的核心结构与变化规律。

不仅如此,它还能识别 “违反物理规律” 的怪事。

团队做了个实验,故意制造两种 “扰动场景”,看模型会不会觉得不对劲:

模型面对“变色”的反应是平平无奇,而面对“物理违规”,惊讶值直接爆表。

LeCun的世界模型单GPU就能跑了图11

团队背景

一作Lucas Maes,米兰国际关系学院(Mila)的三年级博士生,导师是Damien Scieur。

目前在布朗大学担任访问研究员,与Randall Balestriero合作研究世界模型。

LeCun的世界模型单GPU就能跑了图12

其工作重点是通过各种方法改进JEPA ,包括基于梯度的规划、分层时间抽象、目标规范和物理理解。

Quentin Le Lidec,纽约大学柯朗数学研究所的博士后研究员,与Yann LeCun合作研究机器人世界模型。

目前的研究重点是利用人工智能解决物理世界中的问题,曾为Pinocchio、 Simple和stable-worldmodel等开源项目做出贡献。

LeCun的世界模型单GPU就能跑了图13

Damien Scieur,现任三星研究员,曾任普林斯顿大学博士后,主要方向是优化算法。

LeCun的世界模型单GPU就能跑了图14

Randall Balestriero,布朗大学计算机科学助理教授,长期深耕人工智能与深度学习领域。

LeCun的世界模型单GPU就能跑了图15

2013年起研究可学习信号处理,他参与的技术曾用于NASA火星车火星地震探测。

2021年获莱斯大学博士学位,后进入Meta AI做博士后,师从Yann LeCun。

项目主页:https://le-wm.github.io/
github地址:https://github.com/lucas-maes/le-wm
论文地址:https://arxiv.org/pdf/2603.19312v1

— 欢迎AI产品从业者共建 


📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库,旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

LeCun的世界模型单GPU就能跑了图16


一键关注 👇 点亮星标

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU
more
从拼模型到算成本,曦望用S3 GPU给出最佳答案
未经美国许可:远程使用GPU违法!
腾讯重仓的GPU公司要上市了!燧原科技IPO获受理,拟募资60亿,All in研发
Intel迎来前高通GPU大将!曾主导Adreno GPU架构开发
国产推理GPU问世!首用LPDDR6,性价比飙10倍
单卡突破1000TFLOPS!摩尔线程旗舰GPU参数首曝光:对标H100,训练性能大涨30%
2027年超越Rubin:这家国产GPU用七年深蹲,交出一份敢写日期的路线图
CUDA要凉?Claude 30分钟铲平英伟达护城河,AMD要笑醒了
新一代小米 SU7 34 分钟锁单 1.5 万台;阿里平头哥 GPU 已实现量产;谷歌内测 Mac 版 Gemini 应用,深化与苹果 AI 合作 | 极客早知道
燧原科技IPO虽迟但到,“国产GPU四小龙”凑齐资本牌桌
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号