搞模仿学习，还是强化学习？Meta用新范式构建了一个二者的“中间地带”！

搞模仿学习，还是强化学习？Meta用新范式构建了一个二者的“中间地带”！图1

在传统方案中，模仿学习依赖人工标注的专家示范数据，让智能体无法从自身行为后果中学习；强化学习虽能通过试错优化，但需环境提供可验证的奖励信号，要么缺失要么延迟，训练效率极低。

Meta等团队提出的 “Early Experience（早期经验学习）”，正为语言智能体训练破局——

让智能体在无外部奖励的情况下，主动提出替代动作并收集对应的未来状态。通过 “隐性世界建模”（学习环境动态规律）与 “自我反思”（对比专家行为提炼决策教训），将自身经历转化为监督信号。

这一范式既摆脱了对海量人工数据或依赖奖励的桎梏，还能让智能体像人类一样从实践中成长，在 8 类主流环境中均实现性能突破，更能为后续强化学习提供优质初始化，推动语言智能体从 “人类数据驱动” 迈向 “自主经验驱动”。

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

搞模仿学习，还是强化学习？Meta用新范式构建了一个二者的“中间地带”！图2

关键点梳理

这套框架的关键在于：让语言模型具备“内在世界感”。

研究者设计了两个核心机制：

隐式世界建模（Implicit World Modeling）

让模型在执行动作后，自己去预测“接下来会发生什么”。比如执行一条指令后，它会用自然语言描述环境的变化——

“文件已移动”“目标目录存在”“该命令会删除文件”。

这就像模型在脑海里建立了一个“世界模拟器”。

搞模仿学习，还是强化学习？Meta用新范式构建了一个二者的“中间地带”！图3

自我反思（Self-Reflection）

模型会比较自己和专家行为的差异，然后用语言总结出“为什么专家更优”，这些反思再反过来指导下一轮学习。

整个过程不需要额外奖励信号，监督信息全部来自智能体自己的行为与反思。

技术亮点

隐式世界建模：从行为中“感知世界”

这部分是 Early Experience 框架的基础。

模型通过对「状态–动作–结果」三元组的语言化建模，学习环境的内在规律。

具体过程是：智能体在执行动作后，不是直接等待奖励，而是生成一句自然语言描述——预测接下来世界会发生什么。

比如：

“执行 ‘mv log.txt → archive/’ 后，文件将从根目录消失并出现在 archive 文件夹中。”

论文指出，这种方式本质上让模型在语言空间中学会了因果关系建模：

动作与后果的配对成为一种隐式动力学学习。

它不依赖显式的奖励函数或强化信号，而是通过语言描述形成“内生的世界理解”。

搞模仿学习，还是强化学习？Meta用新范式构建了一个二者的“中间地带”！图5

▲图1｜这张图展示了论文提出的两种早期经验学习方式。左侧是隐式世界建模（Implicit World Modeling）：研究者在专家轨迹中加入替代动作，并让模型预测这些动作会导致的下一个状态。通过这种方式，模型在部署前就能内化环境的转移规律，学会“行动—后果”的因果关系。右侧是自我反思（Self-Reflection）：模型同样在专家行为基础上，加入自己生成的解释句（如 “因为X条件不满足，所以选择Y更优”），通过语言化推理学会理解并修正自己的决策©️【深蓝具身智能】编译

自我反思：从差异中“理解正确”

这是 Early Experience 的第二个核心模块。

它建立在隐式世界建模之上，负责让模型从「失败经验」中提炼规律。

流程上，模型会比较自己生成的行为与专家行为之间的结果差异，并用自然语言进行解释。例如：

“在选择交通出行方式时，专家会告诉模型需要额外考虑旅行时间上的问题，因此模型会学习考虑时间约束，从而选择速度最快的乘飞机方案”

这些语言化反思被重新注入模型输入，成为新的监督信号。

从结构上看，反思模块并不额外引入新网络，而是通过语言反馈回路实现：

模型生成行动预测 → 执行动作并观察结果 → 与专家轨迹对比 → 用语言总结差异 → 将反思文本再输入模型更新参数。

搞模仿学习，还是强化学习？Meta用新范式构建了一个二者的“中间地带”！图6

▲图2｜自我反思的提示词模板：作者巧妙地利用模板化的提示词来适配不同的语境场景；从末班中可以看到，模型首先会被要求根据当前的情况作出一系列行动的决策，随后接受专家给出的行动建议，并将自己的行动决策与专家的建议作对比，主动分析差异，从而在过程中“反思”才去的行动决策，最终提升思维的能力©️【深蓝具身智能】编译

这种循环训练相当于让模型在学习“如何调整思维过程”。