思维链（CoT）作者，OpenAI 研究员Jason Wei的深夜自述：我是如何停止模仿，开始真正成长的 - 科技区角思维链（CoT）作者，OpenAI 研究员Jason Wei的深夜自述：我是如何停止模仿，开始真正成长的

本文源自 OpenAI 研究员 Jason Wei 的一篇随笔。作为思维链 (CoT)的作者，他从自己深耕的强化学习领域，巧妙地引申出关于个人成长的深刻洞见。

过去一年，我痴迷于强化学习，几乎所有醒着的时间都在思考它。这竟无意中，让我悟出了一个关于人生的深刻道理。

强化学习中有一个核心理念叫同策略学习（on-policy）：相较于模仿他人的成功轨迹，你更应该走出自己的路，并从每一次与环境的互动中学习。

当然，模仿学习是起步阶段的利器，能帮你快速入门，避免从零开始。

可一旦你具备了独立前行的能力，就应果断摆脱模仿。因为发挥个体独一无二的优势，是通往卓越的唯一路径。

一个公认的实例是，在训练语言模型解决数学题上，强化学习的效果远胜于在人类书写的思维链（CoT）上进行监督微调。

人生亦是如此。学校教育本质上是一种模仿学习，它为我们打下坚实的基础，这无可厚非。

但我发现，即便离开校园，自己仍下意识地研究他人范例，试图复制他们的成功。

这偶尔有效，但我终将触及天花板。因为我只是在模仿别人的长处，而非发挥自己的天赋。

比如，一位研究员能更轻松地完成探索性实验，因为代码库由他亲手搭建；又如，一名足球员能靠我所不具备的力量优势牢牢控球。

同策略学习给我的最大启示是：想要超越前人，就必须走自己的路，亲身去体验与世界碰撞所带来的风险和回报。

我有两个比多数研究员更热衷的习惯：一是大量阅读原始数据，二是通过消融研究去理解系统各组件的真实效用。

一次，我花了几天时间细读数据，并为每位标注员提供个性化反馈。最终的数据质量极高，也让我对任务本身产生了极为宝贵的洞见。

今年，我花了一个月，对自己过去在研究中那些凭感觉、拍脑袋做出的决定，逐一进行复盘和消融研究（可以理解为一种“控制变量的排除法实验”）。

这段漫长而专注的投入，让我学到了关于强化学习的独到见解。我不仅因追随内心热爱而倍感充实，更感到自己正为我的研究，开辟出一条真正独特的道路。

总而言之，模仿是成长的序章，你必须经历。

但若想青出于蓝，在完成起步后，你必须切换到同策略的人生模式，在属于你自己的优劣势中，走出独一无二的轨迹。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！