ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本

近年来，强化学习在游戏智能体、具身智能、大语言模型等领域取得了显著进展。然而，在真实世界中，强化学习仍面临一个核心难题：高质量样本的获取不仅成本高昂，还可能带来多种风险。因此，样本增强成为缓解强化学习中样本获取成本高、风险大等问题的重要途径之一。

近年来，受扩散模型其强大分布建模能力的启发，研究者们提出了基于扩散模型的样本增强方法（代表方法是 SynthER [1]），通过合成高保真样本实现训练数据的扩充。

然而，合成样本虽然符合真实环境动态，但未必最助于智能体的策略学习。为了更清楚地展示这一局限性，论文采用经典离线强化学习算法 TD3+BC [2]，在合成样本集上训练智能体并评估其表现。实验在 Hopper 环境中的 medium-expert 样本集上进行。该样本集由 D4RL 基准 [3] 提供，包含约 200 万条直接从环境中预先采集的样本。合成样本集由 SynthER 合成所得，其规模设置为从 10 万条到 500 万条不等。

实验结果如下（原论文图 1b）。

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图2

从图中可以看出，只有当合成样本集的规模远大于原始样本集时，合成样本才有可能充分覆盖高质量样本区域，并进一步获得相应的策略性能提升。这一观察揭示了当前基于扩散模型的样本增强方法所面临的局限性：其样本合成过程缺乏有效的可控机制，因而难以优先合成对策略学习更有价值的高质量样本。

针对这一局限性，浙江理工大学马啸讲师与南京大学李武军教授课题组联合提出了一种高效样本合成方法 EMCES。EMCES 将情景记忆机制引入可控扩散模型，并利用情景记忆机制引导高质量样本的合成，从而进一步提升下游强化学习算法的表现。

EMCES 是首个将情景记忆引入可控扩散模型，并利用情景记忆指导强化学习样本合成的工作。此外，论文提出了基于哈希的状态表示方法，以提升情景记忆机制的存储效率和检索效率。实验结果表明，在不损失下游强化学习算法表现的情况下，在存储开销上比已有的状态表示方法降低约 8000 倍，在时间开销上比已有的状态表示方法降低 25.5 倍。

该论文已被 ICML2026 录用。南京大学李武军教授为通讯作者，浙江理工大学马啸讲师为第一作者，南京大学硕士生李天为参与作者。

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图3

论文标题：Episodic Memory-Guided Controllable Experience Synthesis for Reinforcement Learning
论文地址：https://openreview.net/forum?id=mjYcL7esQO

1. 方法简介

情景记忆在人类大脑中发挥着重要作用，是人类快速学习与高效经验利用的重要基础。受此启发，在强化学习中，情景记忆能够存储、整合并检索有价值的历史经验，使智能体可以直接访问高质量的过往经验信息，从而提升强化学习算法的样本效率。

基于这一思想，EMCES 利用情景记忆存储历史经验中的高价值信息，为可控扩散模型设计控制条件，并引导可控扩散模型合成更高质量的样本。具体而言，EMCES 包含三个关键组件：基于情景记忆的可控扩散模型、基于情景记忆时序差分误差的优先条件采样策略，以及基于哈希表示的情景记忆机制。

EMCES 的架构图为：

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图4

1.1 基于情景记忆的可控扩散模型

可控的样本合成过程对于提升合成样本质量至关重要。因此，论文引入可控扩散模型，并将期望输出设定为强化学习中数据单元，即状态转移（后文统称为样本）： ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图5 。为了刻画给定样本集的样本分布，论文训练了一个可控扩散模型，并通过求解如下优化问题学习数据分布：

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图7

其中 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图8 表示一个由参数参数化的去噪器，其中为噪声水平，为对应的条件。

样本的可控合成在很大程度上依赖于条件的设计质量。合理设计的条件 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图13 能够使模型合成符合目标语义以及环境动力学规律的样本。因此，条件应被精心设计，以充分编码目标样本中的关键信息，从而保证模型能够合成期望样本。同时，为兼顾训练效率与生成质量，条件表示应在保持充分信息量的基础上尽可能紧凑。由于状态 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图14 决定了可能的动作、奖励以及后续状态转移，因此状态必须被纳入条件中。

然而，直接使用状态 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图19 可能会降低可控扩散模型的训练效率。这是因为原始状态通常包含大量冗余信息，尤其是在高维视觉状态场景中，这一问题更为突出。为此，论文采用一个简单且紧凑的状态表示函数 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图20 对状态进行编码，并将编码后的状态表示作为条件输入的一部分，从而在保留关键状态信息的同时提升模型训练效率。

在保证条件表示紧凑性的同时，条件还应尽可能捕获更丰富的上下文信息，例如对应的动作、奖励、下一状态以及潜在的未来回报。为在信息量和紧凑性之间取得平衡，EMCES 考虑使用状态-动作价值函数 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图22 或来构造或。该项可完美融合动作、奖励、下一状态和潜在未来回报等多项关键信息，从而为可控扩散模型提供更具指导性的条件信号。传统状态-动作价值函数通常依赖神经网络进行估计，这不仅需要额外训练，也容易受到训练不稳定问题的影响。

为此，论文引入情景记忆机制来估计状态-动作价值函数。由于情景记忆具有非参数特性，它能够在不需要额外模型训练的情况下实现稳定的价值估计。同时，为保持条件构造的一致性和计算效率，情景记忆机制使用与可控扩散模型条件中相同的状态表示函数。综上所述，对于样本 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图26 ，其条件定义为：

其中， ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图28 是状态编码，表示由情景记忆机制估计得到的历史最优折扣回报。这里的是从情景记忆中检索得到的。情景记忆的构造与检索细节详见原论文。该项能够隐式刻画样本中的关键元素及其潜在的最优未来回报，从而为可控扩散模型生成高质量样本提供有效的条件引导。因此，论文将该模型称为基于情景记忆的可控扩散模型。

1.2 基于情景记忆时序差分误差的优先条件采样策略

尽管基于情景记忆的可控扩散模型可以直接用于合成样本，但其核心优势在于能够以可控方式合成高质量样本。直观而言，样本合成过程不仅应当符合底层样本分布，还应进一步优先合成对智能体策略学习更有价值的样本。

已有研究表明，优先选择信息量更高的样本训练，例如具有较大时序差分误差的样本可以提升样本效率和训练稳定性。受此启发，论文提出一种基于情景记忆时序差分误差，即 EMTD-误差，记作 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图31 ，用于衡量样本对策略改进的重要性，其具体定义如下：

其中， ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图34 和分别通过索引和从情景记忆机制中查找可得。EMTD-误差的大小表示基于下一状态得到的价值估计与当前状态的历史最优折扣回报 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图41 之间的偏差。因此，EMTD-误差可以作为衡量该样本对策略改进的潜在价值。较大的 EMTD-误差意味着与已有的历史经验相比，该样本可能带来更高回报，因此对策略改进更具价值。

为避免对具有高 EMTD-误差的样本过度采样，论文进一步提出基于情景记忆时序差分误差的优先条件采样策略。该策略对所有样本的 EMTD-误差应用 Softmax 算子，并为每个条件 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图42 计算采样概率：

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图43

其中， ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图44 控制优先采样的程度。越大，采样过程越倾向于生成具有较大 EMTD-误差的样本；当时，该采样策略退化为均匀采样。因此，这一采样策略不仅能够引导基于情景记忆的可控扩散模型合成高质量样本，同时保持样本多样性，从而支撑更加稳健的策略学习。

1.3 基于哈希状态表示的情景记忆

对于情景记忆机制，良好的状态表示不仅可以有效聚合来自不同轨迹的状态以提升其构造质量，还能够降低其存储和时间开销。然而，现有用于情景记忆机制的状态表示方法大多是数据无关的，这限制了不同轨迹状态的聚合质量。因此，论文为情景记忆机制设计了一种新的状态表示方法，即基于哈希的状态表示。该方法采用 Learning-to-Hash 思路，将维度为 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图47 的原始状态编码为紧凑且信息丰富的二进制编码。具体而言，给定样本集，该方法学习个实值投影函数：，其中每个函数输出一个实值， ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图50 表示编码长度。随后，每个投影维度通过符号函数可量化为 0 或 1。关于投影函数的学习，论文采用李武军教授提出的哈希学习方法 IsoHash [4] 来完成。由于哈希编码是从数据分布中学习得到的，因此能更好地与状态空间的底层结构对齐，从而减少无关状态之间的混淆。此外，基于哈希的状态表示通过将相似状态赋予相同的哈希编码，可以帮助情景记忆机制隐式合并多条轨迹，进而构建更加高质量的情景记忆机制。该状态表示也为基于情景记忆的可控扩散模型提供了紧凑且充分的条件。

对于情景记忆机制，论文沿用团队前期工作 [5] 中的实现方式，即 KD-树。其对应的存储复杂度、检索时间复杂度和构建时间复杂度分别为：

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图51

其中， ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图52 表示对大小为的样本集编码后的状态编码数量；表示状态编码每一维所需的比特数；表示编码状态的维度。给定相同 ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图56 值，不同状态表示方法的存储复杂度、检索时间复杂度和构建时间复杂度由和的取值影响，如下表所示。可以发现，基于哈希的状态表示可以有效降低情景记忆对应的存储复杂度、检索时间复杂度和构建时间复杂度。

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图59

2. 实验结果

为验证 EMCES 的有效性，论文分别在离线强化学习和在线强化学习设置下进行实验。首先是在离线强化学习设置下，论文从 D4RL 基准中选取 HalfCheetah、Walker2d、Hopper 和 Maze2D 作为实验环境，选取 TD3+BC、IQL 和 EDAC 三种代表性离线强化学习算法对合成样本集的质量进行评估。下表中的结果表明，EMCES 在多数任务中提升了下游算法表现，并且合成样本训练效果经常达到甚至超过原始样本集训练效果（原论文表 1）。

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图60

在在线强化学习设置下，论文选择了 quadruped-walk、reacher-hard、cheetah-run、Walker2d、HalfCheetah 和 Hopper 等 6 个环境来评估 EMCES。论文使用 SAC 作为在线强化学习算法。除了 SynthER 之外，论文还与一种专注于在线强化学习的样本增强方法 PGR [6] 进行对比。更多实验细节见原论文。下图结果表明（原论文图 4），SAC (EMCES) 能够持续提升样本效率，并优于 SAC (SynthER) 和 SAC (PGR)，这表明 EMCES 合成的数据质量更高。

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图61

论文还对情景记忆中的状态表示方法进行了讨论。论文在表（原论文表 4）中总结了 EMCES 在不同状态表示下的归一化分数，括号中的数字表示 EMCES 在不同状态表示下相较于 SynthER 所取得的归一化分数提升。为了公平比较，所有实验在一台配备 36 核 72 线程 Intel Xeon Gold 6240 CPU @ 2.60GHz、377 GB 内存和 8 块 NVIDIA GeForce RTX2080Ti GPU 的工作站上进行。如下表所示，EMCES 在不同状态表示下均取得了优于 SynthER 的表现。

这一结果验证了 EMCES 整体框架的有效性。同时，下表汇报了在不同状态表示下，建立情景记忆机制所需的存储成本和时间成本，其中时间成本同时包括检索时间成本和构建时间成本。可以发现，基于哈希的状态表示和基于网格的状态表示均能显著降低存储和时间成本。与基于随机投影的状态表示相比，在不损失归一化分数的情况下，基于哈希的状态表示将存储成本降低了约 8000 倍，将时间成本降低了约 25.5 倍。此外，论文还对可控扩散模型的条件设计、采样策略的设计进行了消融实验，更多讨论可见原文。

ICML26 | 浙江理工大学马啸讲师和南京大学李武军教授课题组联合提出EMCES：为强化学习合成更有价值的样本图62

3. 全文小结

EMCES 具有如下优点：

合成过程强可控： EMCES 将情景记忆机制引入可控扩散模型中，通过情景记忆机制构造条件，引导扩散模型合成与目标任务更相关的样本，从而提升了样本增强的可控性；
合成样本质量高： EMCES 利用情景记忆时序差分误差评估样本对于策略学习的潜在价值，并在采样过程中优先关注更具潜在价值的样本区域，从而合成高质量样本；
情景记忆高效性： 采用基于哈希的状态表示后，情景记忆机制能够在不损失下游强化学习算法表现的情况下，在存储开销上比已有的状态表示方法降低约 8000 倍，在时间开销上比已有的状态表示方法降低 25.5 倍。

参考文献：

[1] Lu, C., Ball, P. J., Teh, Y. W., and Parker-Holder, J. Synthetic experience replay. In NeurIPS, 2023b.

[2] Fujimoto, S. and Gu, S. S. A minimalist approach to offline reinforcement learning. In NeurIPS, 2021.

[3] Fu, J., Kumar, A., Nachum, O., Tucker, G., and Levine, S. D4RL: datasets for deep data-driven reinforcement learning. CoRR, abs/2004.07219, 2020.

[4] Kong, W. and Li, W.-J. Isotropic hashing. In NeurIPS, 2012.

[5] Ma, X. and Li, W.-J. State-based episodic memory for multi-agent reinforcement learning. Machine Learning, 112(12):5163–5190, 2023.

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com