分享一个零基础、高质量、免费、开源的 RL 课

机智流 2026-06-05 18:00

分享一个零基础、高质量、免费、开源的 RL 课图1

最近看到一个强化学习开源课程,思路不一样。

它让你先跑代码。跑 CartPole(推车倒立摆,强化学习(RL)中经典的基准测试环境),杆子立起来。跑 Atari(雅达利游戏环境),Pong 赢下来。跑 DPO(直接偏好优化,强化学习算法的一种),大模型回答变好。然后再讲公式。

最近,AgenticRL、OPD、GRPO(分组相对策略优化)、RLVR(基于验证器奖励的强化学习)这些词几乎占据了每个 AI 从业者的首页。

但有个问题一直想不通:既然强化学习是大模型后训练的核心,为什么学 RL 的人还是要先啃三个月公式,才能跑通第一个 CartPole?

传统 RL 课程证明了一件事:从 MDP(马尔可夫决策过程)定义到贝尔曼方程,从策略梯度到 PPO(近端策略优化)裁剪,这条路理论上走得通。

但你想想,学 CartPole 的时候,是先看懂了贝尔曼方程才让杆子立起来的,还是先看到杆子立起来了,才回头去理解贝尔曼方程的?

大概率是后者。

那既然都有 AI 帮你写代码、跑实验了,为什么还要把顺序反过来?

而且 RL 这门学科天然适合“先看现象,再拆原理”。

CartPole 的杆子立起来就是立起来了,Atari 的 Pong 赢了就是赢了,大模型的回答变好了就是变好了。这些现象本身就在告诉你:

智能体学到了什么。


这个课程叫 Hands-On Modern RL

GitHub 上看到的,叫 Hands-On Modern RL(动手学现代强化学习),一个开源的强化学习教程。

仓库地址: https://github.com/walkinglabs/hands-on-modern-rl

在线网站: https://walkinglabs.github.io/hands-on-modern-rl/

它长这样:

分享一个零基础、高质量、免费、开源的 RL 课图2

课程现在覆盖了从 CartPole 到 Agentic RL、从 DQN(深度 Q 网络)到 VLM(视觉语言模型)强化学习的完整路径。

先看看它的学习地图:

分享一个零基础、高质量、免费、开源的 RL 课图3

从前言、基础导论到前沿专题,章节树和页内大纲都在一张图上。找章节不用翻目录。

代码逐行聚焦,公式落到可读代码

大多数教程讲 PPO,先给裁剪目标的公式,再给一段封装好的 API 调用。

这个课程的做法不一样:

分享一个零基础、高质量、免费、开源的 RL 课图4

PPO、DPO、GRPO 关键实现配有代码地图,公式和代码⼀⼀对应。

训练指标可视化,边跑实验边诊断

CartPole 训练到第 50 轮,奖励从 20 涨到 200。KL 散度在漂移,熵在衰减。

这说明什么?说明策略正在坍缩,智能体找到了⼀个确定性解法,但探索能⼒在消失。

课程把真实曲线、指标解释和失败信号放在⼀起:

分享一个零基础、高质量、免费、开源的 RL 课图5

曲线会抖、会崩。论⽂⾥那种平滑的完美样⼦,这⾥看不到。

LLM 后训练流水线,从流程到 artifact(可交付成果)

RLHF(基于人类反馈的强化学习)、DPO、GRPO、RLVR 这些大模型后训练的核心技术,课程用流程、artifact 和案例串联起来:

分享一个零基础、高质量、免费、开源的 RL 课图6

课程把它们串成一条完整的后训练流水线:SFT(监督微调)、奖励模型、PPO、GRPO 各自解决什么问题,一步步看清楚。

AgenticRL 实验,把工具调用放进可复现实验

DeepCoder(一种代码生成智能体)风格的 GRPO 训练曲线。工具调用成功率从 30% 涨到 85%。回复长度在变化。奖励信号在波动。

分享一个零基础、高质量、免费、开源的 RL 课图7

当 RL 不再是一步动作,而是一个完整的智能体工作流。多轮信用分配、工具调用轨迹、端到端 Agentic 训练系统。

Atari 游戏实验,像素输入如何转化为动作决策

Atari Pong 游戏画面与 DQN 训练说明放在同一页:

分享一个零基础、高质量、免费、开源的 RL 课图8

从像素输入开始,看智能体怎么从游戏画面学到动作决策,怎么学会打 Pong。

实践优先,理论解释行为

这个课程最核心的设计理念就一句话:实践先于形式化

每个主要主题都从实验、指标、失败案例或实现细节开始,然后再引入数学抽象。

课程里讲 MDP,因为它是描述问题的语言。讲贝尔曼方程,因为它是拆解长期回报的工具。讲 PPO 裁剪,因为它是防止策略一步走太远的保险。

理论用来解释行为。


覆盖的内容

课程分四个部分加附录:

前言

课程导读、强化学习简史、环境安装指南。

第一部分:基础导论

章节
主题
01
CartPole 倒立摆—通过第一个可运行控制任务理解状态、动作、奖励、策略、价值、熵和训练曲线
02
DPO 偏好微调—偏好数据、DPO 目标、奖励裕度、准确率,以及从 RL 直觉进入大模型后训练的第一座桥

第二部分:核心理论与方法

章节
主题
03
MDP 与价值函数—多臂老虎机、MDP、价值函数、贝尔曼方程、TD(时序差分,Temporal Difference)学习、Q-learning、策略目标、数据来源与奖励设计
04
深度 Q 网络—从表格 Q-learning 到 DQN,经验回放、目标网络、CNN(卷积神经网络)编码器、LunarLander(登月着陆器环境)、Atari 与视觉游戏项目
05
策略梯度与 REINFORCE(蒙特卡洛策略梯度算法)—直接优化策略、采样式梯度、baseline(基线)与方差降低
06
Actor-Critic(演员-评论家)— Actor-Critic 架构、优势函数、基于 TD 误差的 Critic 训练与棋类智能体
07
PPO— PPO 实验、裁剪目标、信任域直觉、GAE(广义优势估计,Generalized Advantage Estimation)、奖励模型、长时程规划与 BipedalWalker(双足行走环境)实战

第三部分:大模型 RL

章节
主题
08
完整 RLHF 流水线— SFT、奖励模型、PPO 风格 RLHF、评估、规模化与奖励破解
09
后训练对齐— DPO 家族、GRPO、DeepSeek-R1 与 DAPO(动态采样偏好优化)、RLVR、金融工具调用 GRPO、策略蒸馏、沙箱训练与工业后训练实践
10
Agentic RL— 多轮信用分配、工具调用轨迹、智能体评估、SWE(软件工程)/DeepCoder/FinQA(金融问答)风格实验、Deep Research(深度研究)智能体与端到端 Agentic 训练系统

第四部分:前沿与高级系统

章节
主题
11
VLM 强化学习— VLM GRPO、视觉奖励、多模态推理框架、视觉生成 RL 与 EasyR1 GeoQA(几何问答)实战
12
未来趋势— 具身智能、Model-Based RL(基于模型的强化学习)、自我博弈、多智能体系统、离线强化学习与规模化趋势

附录

附录
内容
A
训练调试指南—强化学习训练中的常见失败、症状、根因与修复策略
B
RL 工程实践—训练系统、Agent 沙箱、并行化、监控、评估基准、指标词典与工业练习
C
手写代码速记— SFT、PPO、DPO、GRPO、采样、注意力与 DAPO 的核心代码速记
D
学习资料与复现项目推荐
E
强化学习的数学基础—线性代数、概率、微积分、优化与信息论

关于课程

做不到的事,必须说清楚

强化学习很难。这个课程不承诺让你三天成为 RL 专家。

课程由于有 AI 协助生成,目前尚未全面审稿结束,很有可能会有事实性或代码不可运行的错误。但这也恰恰说明了它的态度:快速迭代,公开透明,欢迎所有人来修正。

每个章节都有“常见陷阱”和“调试指南”。一个不告诉你训练会怎么崩的教程,不值得信任。

直觉比知识重要

很多人对“教程”这个词有误解。

不需要一个能背诵所有 RL 算法的学生。需要的是,遇到一个新问题时能快速判断“这个问题适不适合用 RL”的人。

这就像学骑自行车。不需要先理解角动量守恒才能骑上去。先骑,摔几次,找到平衡的感觉。然后回头学物理,发现“原来这就是角动量守恒”。

Hands-On Modern RL 做的事情跟骑车本质一样。只不过它把抽象的 RL 概念变成可运行的实验、可观察的曲线、可调试的代码。

以前是“学过,有点印象”,现在是“跑过,知道为什么”。

每个人都值得有自己的 RL 直觉

决策前问自己:这个问题的奖励信号是什么?

写代码时问自己:智能体现在的行为是探索还是利用?

评估模型时问自己:奖励变高了,是因为模型变聪明了,还是因为奖励被破解了?

别局限在“先学三个月理论再动手”了。CartPole 的代码只有 100 行。DPO 的训练脚本只有 50 行。GRPO 的核心逻辑只有 30 行。全是可运行的。全可以被修改。全可以被理解。你的下一个智能体,何必是黑盒。


如何上手学习

GitHub 仓库

https://github.com/walkinglabs/hands-on-modern-rl

在线阅读

https://walkinglabs.github.io/hands-on-modern-rl/

本地运行

git clone https://github.com/walkinglabs/hands-on-modern-rl
cd hands-on-modern-rl
npm install
npm run dev

开源协议是 CC BY-NC-SA 4.0。非商业使用,可以自由阅读、分享、修改。

教程还在快速迭代中。欢迎提交 Issue 和 Pull Request 来修复拼写错误、修正概念、改进可复现性、补充参考文献。

从 CartPole 的奖励曲线,到大模型的偏好对齐。从表格 Q-learning 的贝尔曼更新,到 Agentic RL 的多轮信用分配。

不完美,有局限,但可操作、可迭代。

通过观察智能体怎么学,你也能照见自己的思维盲点。用 RL 的视角看一遍自己的决策,看到的全是自己的学习过程。

Hands-On Modern RL 给的是梯子。

记录一下这个发现。推荐给想学 RL 但被公式劝退的朋友。


编者注:以上内容整理自一份开源、免费的强化学习教程,不涉及任何付费课程或商业广告。所有资源(代码、文档、网站)均可直接访问和使用,适合零基础或想实践的小白读者放心学习。如果你担心“广告”嫌疑,请放心——我们倒是希望开源社区能给我们打钱分享一个零基础、高质量、免费、开源的 RL 课图9

BTW,从简介上看,项目作者们——walkinglabs——来自THU SIGS (清华深研) 的开源实验室,希望他们能继续做出类似好的作品~

分享一个零基础、高质量、免费、开源的 RL 课图10
项目作者主页截图

仓库地址: https://github.com/walkinglabs/hands-on-modern-rl

在线网站: https://walkinglabs.github.io/hands-on-modern-rl/


-- 完 --


加入机智流 Pro,1 天一块钱,AI 能力指数级增长时代,不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。


机智流推荐阅读

1. 

2. 

3. 

4. 

关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • lc|LangChain 技术交流群
  • code | AI Coding 交流群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 推理 | AI 推理框架交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
看完英伟达开源的Cosmos3后,感觉物理AI的最优开源底座又被它占了......
字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手
龙虾冲浪终于不迷路了!网页智能体新框架Avenir-Web开源即SOTA
月之暗面估值飙至200亿美元,中国开源模型何以在“性价比”赛道突围?
Anthropic一发布Multica就开源,这个4人团队想抢占AI协作层
炸场!英伟达发布全球首个开源量子AI模型
小米MiMo-V2.5开源在即,国产AI从追赶迈向领跑新阶段
700亿!曝DeepSeek融资谈判接近尾声,梁文锋承诺专注开源和AGI
多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读
开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号