LeCun的世界模型单GPU就能跑了

量子位 2026-03-24 12:13

听雨发自凹非寺
量子位 | 公众号 QbitAI

LeCun世界模型最新进展，开源了一套极简训练方案，单GPU就能跑。

这套方案叫LeWorldModel，它基于JEPA架构，实现像素输入直接预测未来，速度快到离谱，完整规划仅需1秒。

LeCun的世界模型单GPU就能跑了图1

它能只看像素画面、不用复杂技巧、单GPU就能稳定训练，学会预测 “我做这个动作，世界会变成什么样”，用来帮机器人、智能体做规划和控制，又快又稳又好用。

LeCun的世界模型单GPU就能跑了图2

实际效果也很不错：

速度飞起：规划速度比大模型方案快48倍，1秒内搞定。
参数很小：只有1500万参数，所有训练与规划实验均在单张NVIDIA L40S显卡上完成，几小时即可训完。
控制很强：在推箱子、机械臂、导航等 2D/3D 任务里，超过之前的端到端方法，和大模型方案打得有来有回。
懂物理： latent里藏着位置、角度等物理信息，还能识别 “不合物理” 的怪事（比如物体突然瞬移，它会觉得 “很意外”）。

技术架构：把JEPA简化到本质

团队介绍，以往的JEPA方法通过启发式方法或技巧（例如EMA、停止梯度法、预训练表示、掩码或复杂的损失函数）来避免模型崩溃。

然而，这些技巧使得JEPA训练不稳定且难以进行。

LeCun的世界模型单GPU就能跑了图3

而LeWM的思路是把JEPA简化到本质：用编码器把图片变特征，用预测器根据动作猜下一个特征，再用高斯正则防止坍塌，全程端到端、极简稳定训练。

其架构只用到两个核心组件——编码器+预测器：

编码器：把画面压缩成一小串数字（latent特征）。

预测器：根据当前特征 + 你要做的动作，预测下一刻的特征。

LeCun的世界模型单GPU就能跑了图4

最关键的创新在于，它只用了两个损失：

预测损失：让预测器尽量猜对下一帧的真实特征，用简单的MSE均方误差。作用是让模型学会世界的动态规律。

SIGReg正则损失：强制让所有特征向量服从标准高斯分布。作用是防止模型 “摆烂坍塌”（所有画面输出一样的特征）。

所以最终的总损失 = 预测损失 + λ × SIGReg正则损失。

LeCun的世界模型单GPU就能跑了图5

正则化权重 λ是唯一需要调优的超参数，极大简化了训练流程，完全不需要以往的额外方法，这也是LeWM稳定、好用的根本原因。

实验结果：完胜此前JEPA方法

先放结论：LeWM完胜之前的端到端JEPA 方法（PLDM），和依赖大模型预训练的DINO‑WM打成平手甚至更强，同时训练更简单、速度更快、参数更小。

团队在4个经典机器人/控制任务上进行测试，并与DINO-WM和PLDM这两种基于JEPA的最先进方法进行比较。

4个任务分别是Push-T（推箱子）、Reacher（机械臂够目标）、OGBench-Cube（3D 机械臂抓方块）、Two-Room（2D 导航）。

LeCun的世界模型单GPU就能跑了图6

结果显示：

Push-T（推箱子）：LeWM最强，成功率96%，比PLDM高18%，甚至超过带体感输入的DINO-WM；
Reacher（机械臂够目标）：LeWM>PLDM，和DINO-WM接近；
OGBench-Cube（3D机械臂抓方块）：LeWM略输DINO-WM，但依然很强；
Two-Room（2D导航）：LeWM稍弱，但物理信息依然学得很好。

LeCun的世界模型单GPU就能跑了图7

在2D和3D任务中，LeWM缩小了与基于基础模型的世界模型（例如 DINO-WM）之间的差距，同时优于端到端基线PLDM。

值得注意的是，LeWM的规划速度比DINO-WM快48倍：不到1秒vs约47秒。

原因是LeWM能把观测数据缩小约200倍，AI预测未来时算得更快、更省力，让基于特征的世界规划几乎可以实时运行。

LeCun的世界模型单GPU就能跑了图8

此外，LeWM是真懂物理。

模型把画面变成一串数字（latent），团队在训练好的LeWM后面，接入一个简单的小探测器，让它只靠latent数字，去预测机器人/方块的位置、方块的角度、机械臂指尖坐标。

结果位置预测几乎100%准确，角度预测也非常准，比之前的PLDM强很多，和大模型DINO差不多。

LeCun的世界模型单GPU就能跑了图9

为了直观展示LeWM的学习效果，团队还额外训练了一个用于可视化的小解码器，展示了三类画面：真实视频、模型 “看到”的还原视频、以及模型的未来预测视频。

LeCun的世界模型单GPU就能跑了图10

可以看到，LeWM不仅能准确理解当前场景，还能正确预测物体接下来的运动，真正抓住了环境的核心结构与变化规律。

不仅如此，它还能识别 “违反物理规律” 的怪事。

团队做了个实验，故意制造两种 “扰动场景”，看模型会不会觉得不对劲：

视觉扰动：物体突然变色；
物理扰动：物体直接瞬移到随机位置，违背物理定律。

模型面对“变色”的反应是平平无奇，而面对“物理违规”，惊讶值直接爆表。

LeCun的世界模型单GPU就能跑了图11

团队背景

一作Lucas Maes，米兰国际关系学院（Mila）的三年级博士生，导师是Damien Scieur。

目前在布朗大学担任访问研究员，与Randall Balestriero合作研究世界模型。

LeCun的世界模型单GPU就能跑了图12

其工作重点是通过各种方法改进JEPA ，包括基于梯度的规划、分层时间抽象、目标规范和物理理解。

Quentin Le Lidec，纽约大学柯朗数学研究所的博士后研究员，与Yann LeCun合作研究机器人世界模型。

目前的研究重点是利用人工智能解决物理世界中的问题，曾为Pinocchio、 Simple和stable-worldmodel等开源项目做出贡献。

LeCun的世界模型单GPU就能跑了图13

Damien Scieur，现任三星研究员，曾任普林斯顿大学博士后，主要方向是优化算法。

LeCun的世界模型单GPU就能跑了图14

Randall Balestriero，布朗大学计算机科学助理教授，长期深耕人工智能与深度学习领域。

LeCun的世界模型单GPU就能跑了图15

2013年起研究可学习信号处理，他参与的技术曾用于NASA火星车火星地震探测。

2021年获莱斯大学博士学位，后进入Meta AI做博士后，师从Yann LeCun。

项目主页：https://le-wm.github.io/
github地址：https://github.com/lucas-maes/le-wm
论文地址：https://arxiv.org/pdf/2603.19312v1

— 欢迎AI产品从业者共建 —

📚「AI产品知识库」是量子位智库基于长期产品库追踪和用户行为数据推出的飞书知识库，旨在成为AI行业从业者、投资者、研究者的核心信息枢纽与决策支持平台。

LeCun的世界模型单GPU就能跑了图16

一键关注 👇 点亮星标

科技前沿进展每日见

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

GPU

more

太空算力迈出关键一步，加拿大商业航天公司Kepler与Sophia联手测试轨道GPU集群

科技区角 3周前

太空算力迈出关键一步，加拿大商业航天公司Kepler与Sophia联手测试轨道GPU集群

刚刚，英伟达革了自己的命：智能体自主进化7天，干掉所有算子工程师、GPU专家

机器之心 1个月前

刚刚，英伟达革了自己的命：智能体自主进化7天，干掉所有算子工程师、GPU专家

昔日GPU霸主，今日CPU屠夫？黄仁勋亮大招

新智元 1周前

昔日GPU霸主，今日CPU屠夫？黄仁勋亮大招

壁仞科技2025年营收激增207%，领衔国产GPU突围战进入关键阶段

科技区角 4周前

壁仞科技2025年营收激增207%，领衔国产GPU突围战进入关键阶段

国产GPU四小龙集体上市后首份年报出炉：营收破十亿、亏损收窄，毛利率媲美国际巨头

科技区角 1个月前

国产GPU四小龙集体上市后首份年报出炉：营收破十亿、亏损收窄，毛利率媲美国际巨头

重庆GPU独角兽，准备IPO

芯东西 2周前

重庆GPU独角兽，准备IPO

马斯克解散xAI，22万张GPU全送给Claude，为了绞杀OpenAI他真拼了！

21ic电子网 1天前

马斯克解散xAI，22万张GPU全送给Claude，为了绞杀OpenAI他真拼了！

GPU时代落幕？硅谷巨头集体「叛逃」，英伟达1500亿疯狂自救

新智元 2个月前

GPU时代落幕？硅谷巨头集体「叛逃」，英伟达1500亿疯狂自救

英伟达AMD英特尔博通联手，堵上GPU算力浪费的漏洞

芯东西 3天前

英伟达AMD英特尔博通联手，堵上GPU算力浪费的漏洞

从进迭时空K3看RISC-V CPU与Imagination GPU协同：如何构建高性能SoC能力

进迭时空SpacemiT 2周前

从进迭时空K3看RISC-V CPU与Imagination GPU协同：如何构建高性能SoC能力

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号