无论是机器人控制还是语言模型推理,一个隐藏但普遍的难题是——
智能体太确定了。
当策略或输出过度收敛,探索空间被压缩,智能体就容易陷入“机械反应”:机器人动作呆板,语言模型推理死板,分类模型则对新样本反应迟钝……
近日,清华大学、上海人工智能实验室与上海期智研究院的研究团队提出了一种全新的解决思路——ERA(Entropy Regularizing Activation)。
它不是从优化目标上做文章,而是直接在激活函数层面对“熵”下手,让模型在输出层维持足够的多样性与不确定性。
简单来说,就是让智能体学会“保留一丝犹豫”。
从“奖惩调熵”到“激活调熵”
难点
在过去的强化学习和模型训练中,研究者常常在损失函数中加入“熵奖励项”,希望通过这种方式让模型学会探索。
但这种做法的问题在于:
奖励项会与主任务目标(如最大奖励或最小损失)发生冲突;
熵系数的调节复杂且不稳定;
当任务或模型规模扩大(如大语言模型或视觉模型)时,这种“外加约束”容易失效。
本研究核心思路
“为什么不让模型自己在激活层上管理熵?”
为此,他们提出了一种可学习的激活函数——Entropy Regularizing Activation(ERA)。
ERA 在输出层将每个预测的分布参数经过一个特定的非线性变换,确保输出分布的熵不会低于设定下界。
也就是说,即使模型的损失函数在不断压缩输出空间,ERA 也会在激活阶段主动“扩张”输出,使策略分布保持多样性。
关键突破
模型不再依赖复杂的熵超参数调节,也无需重新定义损失目标,而是在结构层面实现了熵的自调节。
这让 ERA 成为一种可以直接嵌入各种任务(RL、LLM、CV)的通用模块。
当前具身智能领域的研究者都在探索如何将专才变成通才,提升各个模型的泛化性,因此ERA这种通用的模块正是迫切所需的。

技术亮点提炼
亮点一:结构级熵约束——让激活函数管理探索
ERA 的核心创新是把“熵正则化”嵌入网络结构,而不是损失函数。
研究者设计了一种特殊的激活函数族,可以在不改变原任务目标的前提下,对输出分布施加熵下界约束。
▲图1|ERA 为模型带来的提升展示:(a) ERA 持续提升 Qwen-2.5-Math-7B 在 AIME’24、AIME’25 和 AMC 数据集上的推理准确率。(b)ERA 显著增强多种主流强化学习算法(如 SAC、PPO、TD-MPC2、OBAC)的性能与稳定性。(c)ERA 让 ResNet-50 在 ImageNet 与 CIFAR-10 上的精度稳步提升,展现出跨任务的通用增益©️【深蓝具身智能】编译
这一方式可自动控制输出的不确定性,避免策略塌陷或过度确定化。
在强化学习中,它相当于一种“内建的探索驱动力”,让智能体持续保持策略多样性,而不是始终“冲”向唯一的奖励最高的方向。
亮点二:模块通用性强:机器人控制、LLM、CV都用得上
ERA 不局限于某一任务,而是跨越了三种智能系统:
连续控制(Continuous Control)
▲图2|ERA的通用性实例:对于机器人及智能体的连续控制©️【深蓝具身智能】编译
应用于 SAC、PPO 等强化学习算法,可稳定提升收敛速度与最终得分;
语言模型(Large Language Models)
▲图3|ERA的通用性实例:在LLM中的应用©️【深蓝具身智能】编译
在 Qwen2.5-Math-7B 模型中,ERA 激活改善了模型对数学推理与长链问题的泛化;
视觉分类(Image Classification)
在 ResNet-50 与 ViT 模型上显著提升精度与鲁棒性。
这意味着 ERA 不仅优化“学会怎么动”的机器人,也提升“学会怎么想”的语言模型。
在具身智能体系中,这种跨模态通用的正则机制,恰好弥合了感知、推理与行动之间的熵调节鸿沟。
亮点三:高度可解释与低计算代价
ERA 提供了严格的数学保证(感兴趣的读者可以查看原文中的公式)
——通过构建一个熵下界约束项,证明其在梯度传播中保持连续可导,且不会干扰主任务优化。
▲图4|论文中的部分证明过程©️【深蓝具身智能】编译
因此整个ERA的作用机理是可解释的,大家能够清晰的知道它是怎么作用的,为什么能够起到这样的效果。
此外,计算代价极低:在 RL 与 LLM 任务中,训练时间仅增加 6% 左右,推理阶段几乎无额外成本。
换言之,这是一种“几乎免费的性能提升”。
▲图5|在 HumanoidBench 环境中对比 FastTD3 与 FastSAC-ERA 的训练时长。结果表明,引入 ERA 仅带来约 6% 的额外训练开销,却显著提升了探索效率与采样性能,是一种性价比极高的改进©️【深蓝具身智能】编译

实验与表现
研究团队在三类任务中进行了系统验证:
强化学习(HumanoidBench, DMC)
在复杂平衡与步行任务中,ERA-SAC 和 ERA-PPO 平均提升 30%,并显著加快早期收敛速度。
▲图6|图中汇总了 ERA 在多套强化学习基准下的归一化性能:包括 HumanoidBench(6 个 SAC 任务与 8 个 FastSAC 任务)、DMC(Humanoid 与 Dog,共 6 个任务)以及 Mujoco Gym(4 个 PPO 任务)。结果显示,ERA 能持续加速学习过程,并在长期性能上取得显著优势,展现出更强的稳定性与收敛效率©️【深蓝具身智能】编译
语言模型(Qwen2.5-Math-7B)
▲图7|表中展示了 ERA 在五个竞赛级数学推理基准上的表现,包括 AIME 与 AMC(结果为 avg.@16)。可以看到,ERA 在所有任务上均带来稳定提升,其中最佳结果以粗体标出,体现了其在大语言模型推理任务中的显著增益©️【深蓝具身智能】编译
AIME25 推理准确率从 26.7% 提升至 37.4%,且在 GPQA-D 和 MMLU-Pro 上平均提升 16.9%。
图像分类(ResNet-50 on ImageNet)
Top-1 精度提升 0.69%,泛化误差降低。
▲图8|表中展示了在 ImageNet 与 CIFAR-10 数据集上的 Top-1 与 Top-5 准确率。与原始 ResNet-50 基线相比,加入 ERA 后模型精度显著提升(∆ 表示提升幅度)。所有模型均训练 200 个周期,结果验证了 ERA 在视觉任务中的稳定增益©️【深蓝具身智能】编译
这些结果说明 ERA 并非某一领域的技巧,而是一种真正通用的熵调节机制,让智能体在感知与推理之间保持“足够的不确定性”以更好地决策

总结与延伸
具身智能的角度看,ERA 的意义不止在于性能提升。
它启发我们重新思考智能的本质——真正的智能体,不是完全确定的机器,而是能在不确定中权衡、探索与学习的存在。
ERA 让这种“理性的模糊”第一次在模型层面被形式化。它以几乎零成本的结构改动,让机器人在运动中更稳、让语言模型在推理中更准,也让感知模型在面对未知时更从容。
未来,当这种“熵激活”机制被集成进大规模具身系统中,我们或许就能看到一个新的趋势——
智能体不再追求确定答案,而是学会在不确定中找到最优行动。
你觉得,机器人是快速输出一个高概率的最优解好,还是学会“保留一点不确定”,在输出前再三思索更好?
编辑|阿豹
审编|具身君
Ref:
论文题目: ENTROPY REGULARIZING ACTIVATION: BOOSTING CONTINUOUS CONTROL, LARGE LANGUAGE MODELS, AND IMAGE CLASSIFICATION WITH ACTIVATION AS ENTROPY CONSTRAINTS
论文作者:Zilin Kang, Chonghua Liao, Tingqiang Xu, Huazhe Xu
论文地址:https://arxiv.org/pdf/2510.08549
工作投稿|商务合作|转载
:SL13126828869(微信号)
>>>现在成为星友,特享99元/年<<<
【具身宝典】||||
【技术深度】|||||||
【先锋观点】|||
【非开源代码复现】||
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。
投稿|商务合作|转载:SL13126828869(微信)

点击❤收藏并推荐本文