分享一个零基础、高质量、免费、开源的 RL 课图1

最近看到一个强化学习开源课程，思路不一样。

它让你先跑代码。跑 CartPole（推车倒立摆，强化学习（RL）中经典的基准测试环境），杆子立起来。跑 Atari（雅达利游戏环境），Pong 赢下来。跑 DPO（直接偏好优化，强化学习算法的一种），大模型回答变好。然后再讲公式。

最近，AgenticRL、OPD、GRPO（分组相对策略优化）、RLVR（基于验证器奖励的强化学习）这些词几乎占据了每个 AI 从业者的首页。

但有个问题一直想不通：既然强化学习是大模型后训练的核心，为什么学 RL 的人还是要先啃三个月公式，才能跑通第一个 CartPole？

传统 RL 课程证明了一件事：从 MDP（马尔可夫决策过程）定义到贝尔曼方程，从策略梯度到 PPO（近端策略优化）裁剪，这条路理论上走得通。

但你想想，学 CartPole 的时候，是先看懂了贝尔曼方程才让杆子立起来的，还是先看到杆子立起来了，才回头去理解贝尔曼方程的？

大概率是后者。

那既然都有 AI 帮你写代码、跑实验了，为什么还要把顺序反过来？

而且 RL 这门学科天然适合“先看现象，再拆原理”。

CartPole 的杆子立起来就是立起来了，Atari 的 Pong 赢了就是赢了，大模型的回答变好了就是变好了。这些现象本身就在告诉你：

智能体学到了什么。

这个课程叫 Hands-On Modern RL

GitHub 上看到的，叫 Hands-On Modern RL（动手学现代强化学习），一个开源的强化学习教程。

仓库地址： https://github.com/walkinglabs/hands-on-modern-rl
在线网站： https://walkinglabs.github.io/hands-on-modern-rl/

它长这样：

课程现在覆盖了从 CartPole 到 Agentic RL、从 DQN（深度 Q 网络）到 VLM（视觉语言模型）强化学习的完整路径。

先看看它的学习地图：

从前言、基础导论到前沿专题，章节树和页内大纲都在一张图上。找章节不用翻目录。

代码逐行聚焦，公式落到可读代码

大多数教程讲 PPO，先给裁剪目标的公式，再给一段封装好的 API 调用。

这个课程的做法不一样：

PPO、DPO、GRPO 关键实现配有代码地图，公式和代码⼀⼀对应。

训练指标可视化，边跑实验边诊断

CartPole 训练到第 50 轮，奖励从 20 涨到 200。KL 散度在漂移，熵在衰减。

这说明什么？说明策略正在坍缩，智能体找到了⼀个确定性解法，但探索能⼒在消失。

课程把真实曲线、指标解释和失败信号放在⼀起：

曲线会抖、会崩。论⽂⾥那种平滑的完美样⼦，这⾥看不到。

LLM 后训练流水线，从流程到 artifact（可交付成果）

RLHF（基于人类反馈的强化学习）、DPO、GRPO、RLVR 这些大模型后训练的核心技术，课程用流程、artifact 和案例串联起来：

课程把它们串成一条完整的后训练流水线：SFT（监督微调）、奖励模型、PPO、GRPO 各自解决什么问题，一步步看清楚。

AgenticRL 实验，把工具调用放进可复现实验

DeepCoder（一种代码生成智能体）风格的 GRPO 训练曲线。工具调用成功率从 30% 涨到 85%。回复长度在变化。奖励信号在波动。

当 RL 不再是一步动作，而是一个完整的智能体工作流。多轮信用分配、工具调用轨迹、端到端 Agentic 训练系统。

Atari 游戏实验，像素输入如何转化为动作决策

Atari Pong 游戏画面与 DQN 训练说明放在同一页：

从像素输入开始，看智能体怎么从游戏画面学到动作决策，怎么学会打 Pong。

实践优先，理论解释行为

这个课程最核心的设计理念就一句话：实践先于形式化。

每个主要主题都从实验、指标、失败案例或实现细节开始，然后再引入数学抽象。

课程里讲 MDP，因为它是描述问题的语言。讲贝尔曼方程，因为它是拆解长期回报的工具。讲 PPO 裁剪，因为它是防止策略一步走太远的保险。

理论用来解释行为。

覆盖的内容

课程分四个部分加附录：

前言

课程导读、强化学习简史、环境安装指南。

第一部分：基础导论

章节	主题
01	CartPole 倒立摆—通过第一个可运行控制任务理解状态、动作、奖励、策略、价值、熵和训练曲线
02	DPO 偏好微调—偏好数据、DPO 目标、奖励裕度、准确率，以及从 RL 直觉进入大模型后训练的第一座桥

第二部分：核心理论与方法

章节	主题
03	MDP 与价值函数—多臂老虎机、MDP、价值函数、贝尔曼方程、TD（时序差分，Temporal Difference）学习、Q-learning、策略目标、数据来源与奖励设计
04	深度 Q 网络—从表格 Q-learning 到 DQN，经验回放、目标网络、CNN（卷积神经网络）编码器、LunarLander（登月着陆器环境）、Atari 与视觉游戏项目
05	策略梯度与 REINFORCE（蒙特卡洛策略梯度算法）—直接优化策略、采样式梯度、baseline（基线）与方差降低
06	Actor-Critic（演员-评论家）— Actor-Critic 架构、优势函数、基于 TD 误差的 Critic 训练与棋类智能体
07	PPO— PPO 实验、裁剪目标、信任域直觉、GAE（广义优势估计，Generalized Advantage Estimation）、奖励模型、长时程规划与 BipedalWalker（双足行走环境）实战

第三部分：大模型 RL

章节	主题
08	完整 RLHF 流水线— SFT、奖励模型、PPO 风格 RLHF、评估、规模化与奖励破解
09	后训练对齐— DPO 家族、GRPO、DeepSeek-R1 与 DAPO（动态采样偏好优化）、RLVR、金融工具调用 GRPO、策略蒸馏、沙箱训练与工业后训练实践
10	Agentic RL— 多轮信用分配、工具调用轨迹、智能体评估、SWE（软件工程）/DeepCoder/FinQA（金融问答）风格实验、Deep Research（深度研究）智能体与端到端 Agentic 训练系统

第四部分：前沿与高级系统

章节	主题
11	VLM 强化学习— VLM GRPO、视觉奖励、多模态推理框架、视觉生成 RL 与 EasyR1 GeoQA（几何问答）实战
12	未来趋势— 具身智能、Model-Based RL（基于模型的强化学习）、自我博弈、多智能体系统、离线强化学习与规模化趋势

附录

附录	内容
A	训练调试指南—强化学习训练中的常见失败、症状、根因与修复策略
B	RL 工程实践—训练系统、Agent 沙箱、并行化、监控、评估基准、指标词典与工业练习
C	手写代码速记— SFT、PPO、DPO、GRPO、采样、注意力与 DAPO 的核心代码速记
D	学习资料与复现项目推荐
E	强化学习的数学基础—线性代数、概率、微积分、优化与信息论

关于课程

做不到的事，必须说清楚

强化学习很难。这个课程不承诺让你三天成为 RL 专家。

课程由于有 AI 协助生成，目前尚未全面审稿结束，很有可能会有事实性或代码不可运行的错误。但这也恰恰说明了它的态度：快速迭代，公开透明，欢迎所有人来修正。

每个章节都有“常见陷阱”和“调试指南”。一个不告诉你训练会怎么崩的教程，不值得信任。

直觉比知识重要

很多人对“教程”这个词有误解。

不需要一个能背诵所有 RL 算法的学生。需要的是，遇到一个新问题时能快速判断“这个问题适不适合用 RL”的人。

这就像学骑自行车。不需要先理解角动量守恒才能骑上去。先骑，摔几次，找到平衡的感觉。然后回头学物理，发现“原来这就是角动量守恒”。

Hands-On Modern RL 做的事情跟骑车本质一样。只不过它把抽象的 RL 概念变成可运行的实验、可观察的曲线、可调试的代码。

以前是“学过，有点印象”，现在是“跑过，知道为什么”。

每个人都值得有自己的 RL 直觉

决策前问自己：这个问题的奖励信号是什么？

写代码时问自己：智能体现在的行为是探索还是利用？

评估模型时问自己：奖励变高了，是因为模型变聪明了，还是因为奖励被破解了？

别局限在“先学三个月理论再动手”了。CartPole 的代码只有 100 行。DPO 的训练脚本只有 50 行。GRPO 的核心逻辑只有 30 行。全是可运行的。全可以被修改。全可以被理解。你的下一个智能体，何必是黑盒。

如何上手学习

GitHub 仓库

https://github.com/walkinglabs/hands-on-modern-rl

在线阅读

https://walkinglabs.github.io/hands-on-modern-rl/

本地运行

git clone https://github.com/walkinglabs/hands-on-modern-rl
cd hands-on-modern-rl
npm install
npm run dev

开源协议是 CC BY-NC-SA 4.0。非商业使用，可以自由阅读、分享、修改。

教程还在快速迭代中。欢迎提交 Issue 和 Pull Request 来修复拼写错误、修正概念、改进可复现性、补充参考文献。

从 CartPole 的奖励曲线，到大模型的偏好对齐。从表格 Q-learning 的贝尔曼更新，到 Agentic RL 的多轮信用分配。

不完美，有局限，但可操作、可迭代。

通过观察智能体怎么学，你也能照见自己的思维盲点。用 RL 的视角看一遍自己的决策，看到的全是自己的学习过程。

Hands-On Modern RL 给的是梯子。

记录一下这个发现。推荐给想学 RL 但被公式劝退的朋友。

编者注：以上内容整理自一份开源、免费的强化学习教程，不涉及任何付费课程或商业广告。所有资源（代码、文档、网站）均可直接访问和使用，适合零基础或想实践的小白读者放心学习。如果你担心“广告”嫌疑，请放心——我们倒是希望开源社区能给我们打钱分享一个零基础、高质量、免费、开源的 RL 课图9 。