搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!

深蓝具身智能 2025-10-25 10:56

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图1

在传统方案中,模仿学习依赖人工标注的专家示范数据,让智能体无法从自身行为后果中学习;强化学习虽能通过试错优化,但需环境提供可验证的奖励信号,要么缺失要么延迟,训练效率极低。

Meta等团队提出的 “Early Experience(早期经验学习)”,正为语言智能体训练破局——

让智能体在无外部奖励的情况下,主动提出替代动作并收集对应的未来状态。通过 “隐性世界建模”(学习环境动态规律)与 “自我反思”(对比专家行为提炼决策教训),将自身经历转化为监督信号。

这一范式既摆脱了对海量人工数据或依赖奖励的桎梏,还能让智能体像人类一样从实践中成长,在 8 类主流环境中均实现性能突破,更能为后续强化学习提供优质初始化,推动语言智能体从 “人类数据驱动” 迈向 “自主经验驱动”。

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图2

关键点梳理

这套框架的关键在于:让语言模型具备“内在世界感”。

研究者设计了两个核心机制:

让模型在执行动作后,自己去预测“接下来会发生什么”。比如执行一条指令后,它会用自然语言描述环境的变化——

“文件已移动”“目标目录存在”“该命令会删除文件”。

这就像模型在脑海里建立了一个“世界模拟器”。

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图3

模型会比较自己和专家行为的差异,然后用语言总结出“为什么专家更优”,这些反思再反过来指导下一轮学习。

整个过程不需要额外奖励信号,监督信息全部来自智能体自己的行为与反思。

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图4

技术亮点

隐式世界建模:从行为中“感知世界”

这部分是 Early Experience 框架的基础。

模型通过对「状态–动作–结果」三元组的语言化建模,学习环境的内在规律。

具体过程是:智能体在执行动作后,不是直接等待奖励,而是生成一句自然语言描述——预测接下来世界会发生什么。

比如:

“执行 ‘mv log.txt → archive/’ 后,文件将从根目录消失并出现在 archive 文件夹中。”

论文指出,这种方式本质上让模型在语言空间中学会了因果关系建模:

动作与后果的配对成为一种隐式动力学学习。

它不依赖显式的奖励函数或强化信号,而是通过语言描述形成“内生的世界理解”

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图5

图1|这张图展示了论文提出的两种早期经验学习方式。左侧是隐式世界建模(Implicit World Modeling):研究者在专家轨迹中加入替代动作,并让模型预测这些动作会导致的下一个状态。通过这种方式,模型在部署前就能内化环境的转移规律,学会“行动—后果”的因果关系。右侧是 自我反思(Self-Reflection):模型同样在专家行为基础上,加入自己生成的解释句(如 “因为X条件不满足,所以选择Y更优”),通过语言化推理学会理解并修正自己的决策©️【深蓝具身智能】编译

自我反思:从差异中“理解正确”

这是 Early Experience 的第二个核心模块。

它建立在隐式世界建模之上,负责让模型从「失败经验」中提炼规律。

流程上,模型会比较自己生成的行为与专家行为之间的结果差异,并用自然语言进行解释。例如:

“在选择交通出行方式时,专家会告诉模型需要额外考虑旅行时间上的问题,因此模型会学习考虑时间约束,从而选择速度最快的乘飞机方案”

这些语言化反思被重新注入模型输入,成为新的监督信号。

从结构上看,反思模块并不额外引入新网络,而是通过语言反馈回路实现:

模型生成行动预测 → 执行动作并观察结果 → 与专家轨迹对比 → 用语言总结差异 → 将反思文本再输入模型更新参数。

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图6

图2|自我反思的提示词模板:作者巧妙地利用模板化的提示词来适配不同的语境场景;从末班中可以看到,模型首先会被要求根据当前的情况作出一系列行动的决策,随后接受专家给出的行动建议,并将自己的行动决策与专家的建议作对比,主动分析差异,从而在过程中“反思”才去的行动决策,最终提升思维的能力©️【深蓝具身智能】编译

这种循环训练相当于让模型在学习“如何调整思维过程”。

Early Experience 框架:无奖励的自我成长机制

隐式建模和自我反思共同组成完整的 Early Experience 框架。

整体流程如下:

这种机制不依赖奖励函数,也不需要环境交互模拟器,可直接在语言模型框架中实现。

它相当于在大模型中内嵌了“微型认知循环”——观察 → 预测 → 比较 → 反思 → 调整。

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图7

图3|Early Experience 的“语言认知循环”在行动这张图展示了 Early Experience 框架在 TravelPlanner 任务中的一个完整训练示例。©️【深蓝具身智能】编译

研究者指出,这种模式在多个任务中展现出显著泛化力,因为模型不仅学到了任务本身,还形成了对任务逻辑的可迁移理解

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图8

实验与表现

研究团队在 WebShopALFWorld 等8个环境中验证了 Early Experience 的效果。

只用 1/8 的专家数据,模型的成功率就能超过传统模仿学习,用 一半数据甚至能追平完整监督训练。

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图9

图4|这张图展示了 Early Experience 方法在八个标准测试环境上的表现。©️【深蓝具身智能】编译

这说明智能体不再依赖海量演示,也能从自己的行动结果中提取有效监督,以更少的成本学得更深

此外,论文提出的“分支因子 K”机制,让模型在每个状态生成多个替代动作进行推演。

随着 K 的增加,模型对环境的理解更完整,世界建模能力持续增强。同时,自我反思(Self-Reflection) 模块在中等分支下效果最佳,平衡了探索与稳定性。

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图10

图5|这张图展示了在 WebArena-Lite 基准环境 中,不同规模的 Llama 模型(从小型到大型)在采用模仿学习与早期经验方法下的性能对比。©️【深蓝具身智能】编译

最后,研究者在从 3B 到 70B 参数的多种模型上测试发现,Early Experience 的优势在所有规模中都保持显著——即使只用 LoRA 微调,仍能稳定提升表现。

这证明该方法具有良好的可扩展性和迁移性:模型越大,收获越多;经验越早,智能越强

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图11

总结

Early Experience 提供了一种全新的学习方式:智能体不再依赖外部奖励,也不再单纯模仿人类,而是通过观察自己的行动后果来理解世界

隐式世界建模让它学会预见变化,自我反思让它学会修正错误。它让语言模型第一次具备了“主动学习”的特征,能在没有奖励信号、没有外部标注的情况下不断完善自己。在具身智能与通用智能的演化路线上,EarlyExperience 代表着一种更接近人类的学习方式——

从经验出发,从失败中成长,从世界中理解自己。

编辑|阿豹

审编|具身君


Ref

论文题目:Agent Learning via Early Experience

论文地址:https://arxiv.org/pdf/2510.08558


工作投稿|商务合作|转载:SL13126828869(微信号)

>>>现在成为星友,特享99元/年<<<

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图12

搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图13

【具身宝典】


【技术深度】


【先锋观点】


【非开源代码复现】

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇


搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图14

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

投稿|商务合作|转载:SL13126828869(微信)


搞模仿学习,还是强化学习?Meta用新范式构建了一个二者的“中间地带”!图15

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
Pipistrel的卖身,终得“北美”市场
未来的 iPhone,想靠卫星消灭「无服务」
前DeepSeek骨干罗福莉官宣加入小米/iPhone霸榜双11手机销量前三/OpenAI突袭发布GPT-5.1
688795,北京“英伟达”启动发行!上海“英伟达” IPO获批!
iPhone可以检测针孔摄像头?官方回应
华为乾崑App发布;2026款苹果iPad Air前瞻;小米武汉青年公寓计划明年中竣工...
小智一周要闻 | 宇树科技完成IPO辅导;智元机器人完成股改
COMSOL Multiphysics® 6.4 版本全新发布!
首发2000万台?消息称苹果首款折叠iPhone 屏幕供应链、组装厂已定
杭州芯片“小巨人”,要IPO了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号