思维链(CoT)作者,OpenAI 研究员Jason Wei的深夜自述:我是如何停止模仿,开始真正成长的

智能情报所 2025-07-16 13:22

本文源自 OpenAI 研究员 Jason Wei 的一篇随笔。作为思维链 (CoT)的作者,他从自己深耕的强化学习领域,巧妙地引申出关于个人成长的深刻洞见。

过去一年,我痴迷于强化学习,几乎所有醒着的时间都在思考它。这竟无意中,让我悟出了一个关于人生的深刻道理。

强化学习中有一个核心理念叫同策略学习(on-policy):相较于模仿他人的成功轨迹,你更应该走出自己的路,并从每一次与环境的互动中学习

当然,模仿学习是起步阶段的利器,能帮你快速入门,避免从零开始。

可一旦你具备了独立前行的能力,就应果断摆脱模仿。因为发挥个体独一无二的优势,是通往卓越的唯一路径

一个公认的实例是,在训练语言模型解决数学题上,强化学习的效果远胜于在人类书写的思维链(CoT)上进行监督微调。

人生亦是如此。学校教育本质上是一种模仿学习,它为我们打下坚实的基础,这无可厚非

但我发现,即便离开校园,自己仍下意识地研究他人范例,试图复制他们的成功。

这偶尔有效,但我终将触及天花板。因为我只是在模仿别人的长处,而非发挥自己的天赋

比如,一位研究员能更轻松地完成探索性实验,因为代码库由他亲手搭建;又如,一名足球员能靠我所不具备的力量优势牢牢控球。

同策略学习给我的最大启示是:想要超越前人,就必须走自己的路,亲身去体验与世界碰撞所带来的风险和回报

我有两个比多数研究员更热衷的习惯:一是大量阅读原始数据,二是通过消融研究去理解系统各组件的真实效用。

一次,我花了几天时间细读数据,并为每位标注员提供个性化反馈。最终的数据质量极高,也让我对任务本身产生了极为宝贵的洞见。

今年,我花了一个月,对自己过去在研究中那些凭感觉、拍脑袋做出的决定,逐一进行复盘和消融研究(可以理解为一种“控制变量的排除法实验”)。

这段漫长而专注的投入,让我学到了关于强化学习的独到见解。我不仅因追随内心热爱而倍感充实,更感到自己正为我的研究,开辟出一条真正独特的道路。

总而言之,模仿是成长的序章,你必须经历

但若想青出于蓝,在完成起步后,你必须切换到同策略的人生模式,在属于你自己的优劣势中,走出独一无二的轨迹


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI ASO
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号