Sutton 的思想启发我们:机器人系统不应死磕完美模型或一次性设计,而是要以“奖励驱动+层次化抽象+持续学习”的 OaK 框架,让技能库和知识库在运行中自生长,逐步进化为通用智能体。
Sutton 的目标
核心追求:一个 简单且通用的 AI 智能体架构。
关键特性:
通用性(General):不依赖任何特定领域知识。
经验性(Experiential):完全基于运行时经验学习,而非设计时注入。
开放式抽象(Open-ended Abstraction):能持续发展新的概念和时间抽象,复杂性只受限于计算资源。
世界与智能体的关系(智能体所处的基本环境假设)
1. 世界无限复杂 → 智能体只能近似建模
世界包含物理规律、社会制度、其他智能体的意图与行为,复杂度无限。
智能体(AI 或人)有限的计算与记忆能力,注定无法穷举世界的全部状态。
因此,智能体必须依赖近似(approximation)来建模,避免追求“完美的世界模型”。
这为后续提出 抽象(abstraction) 的必要性埋下伏笔:我们必须用更高层的概念来压缩复杂世界。
2. 非平稳性(Non-stationarity) → 世界看似随机
从智能体角度看,其他人的行为可能左右环境结果。
例如:开车时,前车可能左转也可能右转 —— 对方的大脑是确定的,但智能体无法直接观测,只能当作“非平稳”的不确定性。
所以,固定不变的最优策略在现实中不存在,智能体必须持续适应。
这说明智能体必须具备 持续学习 和 动态调整 的机制。
3. 运行时学习的必要性
在设计时注入知识(领域先验)不足以覆盖无限复杂的世界。
智能体要在运行时(runtime)依靠 流式经验数据 自主学习、发现新抽象和规律。
人类成长的过程就是典型案例:出生后通过与世界互动逐渐形成概念体系。
这为 Sutton 提出 基于经验的架构(experiential architecture)提供了根基。
OaK 八步愿景的逐点问题与解法
1. 学习奖励最大化的主策略与价值函数
问题:非线性深度学习在持续学习中会灾难性遗忘。
潜在解法:
持续反向传播(Continual Backprop):通过 replay / 正则化 来维持旧知识。
弹性权重保持(EWC)、正交梯度投影(OGD) 等方法。
元学习/自适应步长:通过自适应学习率机制(如 IDBD)减少遗忘。
2. 生成新状态特征
问题:如何持续地产生对未来有用的特征?
潜在解法:
Generate-and-Test 策略:先随机生成特征,再测试其有用性。
表示学习(representation learning):自监督方法(autoencoder、contrastive learning)。
IDBD(增量自适应步长):动态生成偏差调整,逐渐逼近有效表征。
3. 特征排序
问题:如何判定哪些特征值得关注?
潜在解法:
基于 使用频率:看特征在策略或价值函数中是否被频繁用到。
基于 提升贡献:看引入该特征后,预测/规划误差是否下降。
基于 互信息:度量特征与奖励之间的相关性。
4. 构建子问题
问题:子问题不能预定义,必须由智能体自身生成。
潜在解法:
特征达成子问题:每个重要特征的变化都可作为子问题(见 Abel et al. 2022)。
好奇心驱动探索(Intrinsic Motivation):让智能体通过不确定性或信息增益来生成子任务。
“玩耍”机制:模仿婴儿,主动尝试与环境交互,从而涌现出自然子问题。
5. 为子问题学习解法(选项)
问题:如何高效学习大量子问题?
潜在解法:
离策略学习(off-policy learning):并行学习多个子问题的解法。
层次化 RL(HRL):将子问题当作选项,由更高层策略调用。
自监督预训练:利用环境交互数据同时训练多个子任务。
6. 学习选项的状态转移模型(知识)
问题:子问题解法必须带来可预测的结果。
潜在解法:
模型学习:训练预测器来建模“执行选项 → 终止状态”的分布。
不确定性建模:使用贝叶斯方法或 ensemble 评估模型置信度。
多样化结果预测:支持一个选项带来多个潜在后果。
7. 执行规划
问题:如何用选项模型进行有效规划?
潜在解法:
抽象层次价值迭代:在“选项空间”上而非“动作空间”进行规划。
启发式搜索(A)* 或 蒙特卡洛树搜索(MCTS):结合抽象模型进行更高效推理。
模型预测控制(MPC):利用学到的模型进行滚动预测。
8. 维护元数据
问题:如何识别模型在哪些地方可靠?
潜在解法:
统计监控:记录特征、选项和模型的误差分布。
置信度评估:通过不确定性估计判断模型适用范围。
特征淘汰/重用机制:避免无用或冗余特征消耗资源。
总体来看:
Options 解决了“时间抽象”的问题。
Knowledge 解决了“预测与规划”的问题。
Reward-respecting Subproblems 解决了“如何生成合适的子任务”的问题。
而 OaK 的八步循环,就是将这些元素嵌入一个“自生长系统”中,让智能体能在复杂世界里持续进化。
OaK 核心扩展如何解决“常用模型的缺陷”
1. 引入 Options(选项)
问题:传统模型中的动作是“瞬时”的,缺乏时间抽象。
解决:通过选项(option)将一段动作序列压缩为“高层动作”。
例如,“捡起杯子”由几十个低层次动作组成,但作为一个选项,它就是一个整体。
好处:让智能体能够在更高时间尺度上进行规划,提升效率与泛化。
2. 引入 Knowledge(知识,即选项模型)
问题:传统模型中的状态转移只预测一步,无法支撑复杂规划。
解决:为每个选项建立状态转移模型(选项模型),预测 整个选项的执行后果。
例如,“去厨房”后可能到达厨房(成功),也可能在路上遇到障碍(失败)。
好处:支持智能体“长距离跳跃式思考”,从“逐步模拟”升级为“宏观规划”。
3. Reward-respecting Subproblems(与奖励一致的子问题)
问题:智能体无法直接枚举所有潜在子任务。
解决:让子问题来源于 特征的变化,并要求“不能严重损害主奖励”。
好处:子问题变成了 探索-利用 的驱动来源(好奇心),避免子问题脱离目标。
对机器人研究和开发的启发
1. 世界复杂性与抽象能力
启发:机器人系统不能依赖“完美的世界模型”,必须用近似和抽象来应对复杂环境。
落地:
机器人感知系统要支持多层次表征:像素级(视觉输入)、对象级(物体检测与跟踪)、任务级(场景理解)。
在实际部署中,应避免过度依赖全局精确建图,而是更多依赖相对表示与局部抽象(如物体-操作对,而不是全环境建模)。
2. 非平稳性与持续学习
启发:现实中的机器人环境(工厂、厨房、商超)具有非平稳性,固定策略无法应对。
落地:
构建支持在线微调或终身学习的控制系统(如 LoRA/Adapter 在线微调)。
设计 人机协同闭环:当策略失效时,允许人类干预 → 记录新演示 → 策略快速更新。
借鉴 HIL-SERL 或 ForceMimic 的范式:通过“人类干预+自适应 RL”在几小时内获得新技能。
3. 奖励假设与目标设定
启发:奖励统一了多任务目标,复杂行为可以由简单奖励催生。
落地:
机器人任务可以尽量简化奖励信号:例如“是否成功放置物体”“是否完成巡检”。
对于多目标任务(效率、安全、能耗),可以通过奖励权重组合或分层奖励来处理,而不是人为硬编码大量规则。
在 Sim2Real 场景中,可以利用稀疏奖励配合模仿学习(IL+RL),避免密集手工奖励。
4. 常用智能体模型与其缺陷
启发:传统 Agent 模型缺乏高层抽象,导致机器人“只会做动作,不会做任务”。
落地:
引入层次化结构:
低层:运动控制(joint trajectory / grasp execution)。
中层:技能选项(pick, place, push, open door)。
高层:任务规划(清理桌子、做一顿饭)。
让机器人不仅能做“关节动作”,还能表达“选项动作”,最终对接自然语言描述。

