
最近看到一个强化学习开源课程,思路不一样。
它让你先跑代码。跑 CartPole(推车倒立摆,强化学习(RL)中经典的基准测试环境),杆子立起来。跑 Atari(雅达利游戏环境),Pong 赢下来。跑 DPO(直接偏好优化,强化学习算法的一种),大模型回答变好。然后再讲公式。
最近,AgenticRL、OPD、GRPO(分组相对策略优化)、RLVR(基于验证器奖励的强化学习)这些词几乎占据了每个 AI 从业者的首页。
但有个问题一直想不通:既然强化学习是大模型后训练的核心,为什么学 RL 的人还是要先啃三个月公式,才能跑通第一个 CartPole?
传统 RL 课程证明了一件事:从 MDP(马尔可夫决策过程)定义到贝尔曼方程,从策略梯度到 PPO(近端策略优化)裁剪,这条路理论上走得通。
但你想想,学 CartPole 的时候,是先看懂了贝尔曼方程才让杆子立起来的,还是先看到杆子立起来了,才回头去理解贝尔曼方程的?
大概率是后者。
那既然都有 AI 帮你写代码、跑实验了,为什么还要把顺序反过来?
而且 RL 这门学科天然适合“先看现象,再拆原理”。
CartPole 的杆子立起来就是立起来了,Atari 的 Pong 赢了就是赢了,大模型的回答变好了就是变好了。这些现象本身就在告诉你:
智能体学到了什么。
这个课程叫 Hands-On Modern RL
GitHub 上看到的,叫 Hands-On Modern RL(动手学现代强化学习),一个开源的强化学习教程。
仓库地址: https://github.com/walkinglabs/hands-on-modern-rl
在线网站: https://walkinglabs.github.io/hands-on-modern-rl/
它长这样:

课程现在覆盖了从 CartPole 到 Agentic RL、从 DQN(深度 Q 网络)到 VLM(视觉语言模型)强化学习的完整路径。
先看看它的学习地图:

从前言、基础导论到前沿专题,章节树和页内大纲都在一张图上。找章节不用翻目录。
代码逐行聚焦,公式落到可读代码
大多数教程讲 PPO,先给裁剪目标的公式,再给一段封装好的 API 调用。
这个课程的做法不一样:

PPO、DPO、GRPO 关键实现配有代码地图,公式和代码⼀⼀对应。
训练指标可视化,边跑实验边诊断
CartPole 训练到第 50 轮,奖励从 20 涨到 200。KL 散度在漂移,熵在衰减。
这说明什么?说明策略正在坍缩,智能体找到了⼀个确定性解法,但探索能⼒在消失。
课程把真实曲线、指标解释和失败信号放在⼀起:

曲线会抖、会崩。论⽂⾥那种平滑的完美样⼦,这⾥看不到。
LLM 后训练流水线,从流程到 artifact(可交付成果)
RLHF(基于人类反馈的强化学习)、DPO、GRPO、RLVR 这些大模型后训练的核心技术,课程用流程、artifact 和案例串联起来:

课程把它们串成一条完整的后训练流水线:SFT(监督微调)、奖励模型、PPO、GRPO 各自解决什么问题,一步步看清楚。
AgenticRL 实验,把工具调用放进可复现实验
DeepCoder(一种代码生成智能体)风格的 GRPO 训练曲线。工具调用成功率从 30% 涨到 85%。回复长度在变化。奖励信号在波动。

当 RL 不再是一步动作,而是一个完整的智能体工作流。多轮信用分配、工具调用轨迹、端到端 Agentic 训练系统。
Atari 游戏实验,像素输入如何转化为动作决策
Atari Pong 游戏画面与 DQN 训练说明放在同一页:

从像素输入开始,看智能体怎么从游戏画面学到动作决策,怎么学会打 Pong。
实践优先,理论解释行为
这个课程最核心的设计理念就一句话:实践先于形式化。
每个主要主题都从实验、指标、失败案例或实现细节开始,然后再引入数学抽象。
课程里讲 MDP,因为它是描述问题的语言。讲贝尔曼方程,因为它是拆解长期回报的工具。讲 PPO 裁剪,因为它是防止策略一步走太远的保险。
理论用来解释行为。
覆盖的内容
课程分四个部分加附录:
前言
课程导读、强化学习简史、环境安装指南。
第一部分:基础导论
第二部分:核心理论与方法
第三部分:大模型 RL
第四部分:前沿与高级系统
附录
关于课程
做不到的事,必须说清楚
强化学习很难。这个课程不承诺让你三天成为 RL 专家。
课程由于有 AI 协助生成,目前尚未全面审稿结束,很有可能会有事实性或代码不可运行的错误。但这也恰恰说明了它的态度:快速迭代,公开透明,欢迎所有人来修正。
每个章节都有“常见陷阱”和“调试指南”。一个不告诉你训练会怎么崩的教程,不值得信任。
直觉比知识重要
很多人对“教程”这个词有误解。
不需要一个能背诵所有 RL 算法的学生。需要的是,遇到一个新问题时能快速判断“这个问题适不适合用 RL”的人。
这就像学骑自行车。不需要先理解角动量守恒才能骑上去。先骑,摔几次,找到平衡的感觉。然后回头学物理,发现“原来这就是角动量守恒”。
Hands-On Modern RL 做的事情跟骑车本质一样。只不过它把抽象的 RL 概念变成可运行的实验、可观察的曲线、可调试的代码。
以前是“学过,有点印象”,现在是“跑过,知道为什么”。
每个人都值得有自己的 RL 直觉
决策前问自己:这个问题的奖励信号是什么?
写代码时问自己:智能体现在的行为是探索还是利用?
评估模型时问自己:奖励变高了,是因为模型变聪明了,还是因为奖励被破解了?
别局限在“先学三个月理论再动手”了。CartPole 的代码只有 100 行。DPO 的训练脚本只有 50 行。GRPO 的核心逻辑只有 30 行。全是可运行的。全可以被修改。全可以被理解。你的下一个智能体,何必是黑盒。
如何上手学习
GitHub 仓库
https://github.com/walkinglabs/hands-on-modern-rl
在线阅读
https://walkinglabs.github.io/hands-on-modern-rl/
本地运行
git clone https://github.com/walkinglabs/hands-on-modern-rl
cd hands-on-modern-rl
npm install
npm run dev
开源协议是 CC BY-NC-SA 4.0。非商业使用,可以自由阅读、分享、修改。
教程还在快速迭代中。欢迎提交 Issue 和 Pull Request 来修复拼写错误、修正概念、改进可复现性、补充参考文献。
从 CartPole 的奖励曲线,到大模型的偏好对齐。从表格 Q-learning 的贝尔曼更新,到 Agentic RL 的多轮信用分配。
不完美,有局限,但可操作、可迭代。
通过观察智能体怎么学,你也能照见自己的思维盲点。用 RL 的视角看一遍自己的决策,看到的全是自己的学习过程。
Hands-On Modern RL 给的是梯子。
记录一下这个发现。推荐给想学 RL 但被公式劝退的朋友。
编者注:以上内容整理自一份开源、免费的强化学习教程,不涉及任何付费课程或商业广告。所有资源(代码、文档、网站)均可直接访问和使用,适合零基础或想实践的小白读者放心学习。如果你担心“广告”嫌疑,请放心——我们倒是希望开源社区能给我们打钱
。
BTW,从简介上看,项目作者们——walkinglabs——来自THU SIGS (清华深研) 的开源实验室,希望他们能继续做出类似好的作品~

仓库地址: https://github.com/walkinglabs/hands-on-modern-rl
在线网站: https://walkinglabs.github.io/hands-on-modern-rl/
-- 完 --
机智流推荐阅读:
1.
2.
3.
4.
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 lc|LangChain 技术交流群 code | AI Coding 交流群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 推理 | AI 推理框架交流群 智能体 | Agent 技术交流群