思维链(CoT)作者,OpenAI 研究员Jason Wei的深夜自述:我是如何停止模仿,开始真正成长的

智能情报所 2025-07-16 13:22

本文源自 OpenAI 研究员 Jason Wei 的一篇随笔。作为思维链 (CoT)的作者,他从自己深耕的强化学习领域,巧妙地引申出关于个人成长的深刻洞见。

过去一年,我痴迷于强化学习,几乎所有醒着的时间都在思考它。这竟无意中,让我悟出了一个关于人生的深刻道理。

强化学习中有一个核心理念叫同策略学习(on-policy):相较于模仿他人的成功轨迹,你更应该走出自己的路,并从每一次与环境的互动中学习

当然,模仿学习是起步阶段的利器,能帮你快速入门,避免从零开始。

可一旦你具备了独立前行的能力,就应果断摆脱模仿。因为发挥个体独一无二的优势,是通往卓越的唯一路径

一个公认的实例是,在训练语言模型解决数学题上,强化学习的效果远胜于在人类书写的思维链(CoT)上进行监督微调。

人生亦是如此。学校教育本质上是一种模仿学习,它为我们打下坚实的基础,这无可厚非

但我发现,即便离开校园,自己仍下意识地研究他人范例,试图复制他们的成功。

这偶尔有效,但我终将触及天花板。因为我只是在模仿别人的长处,而非发挥自己的天赋

比如,一位研究员能更轻松地完成探索性实验,因为代码库由他亲手搭建;又如,一名足球员能靠我所不具备的力量优势牢牢控球。

同策略学习给我的最大启示是:想要超越前人,就必须走自己的路,亲身去体验与世界碰撞所带来的风险和回报

我有两个比多数研究员更热衷的习惯:一是大量阅读原始数据,二是通过消融研究去理解系统各组件的真实效用。

一次,我花了几天时间细读数据,并为每位标注员提供个性化反馈。最终的数据质量极高,也让我对任务本身产生了极为宝贵的洞见。

今年,我花了一个月,对自己过去在研究中那些凭感觉、拍脑袋做出的决定,逐一进行复盘和消融研究(可以理解为一种“控制变量的排除法实验”)。

这段漫长而专注的投入,让我学到了关于强化学习的独到见解。我不仅因追随内心热爱而倍感充实,更感到自己正为我的研究,开辟出一条真正独特的道路。

总而言之,模仿是成长的序章,你必须经历

但若想青出于蓝,在完成起步后,你必须切换到同策略的人生模式,在属于你自己的优劣势中,走出独一无二的轨迹


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI ASO
more
抢外卖还是拼AI:互联网“五虎”半年业绩透露什么?
2026年投产!马斯克称特斯拉AI5芯片为“史诗级”产品
OpenAI五年内狂烧1150亿美元应战!年营收将达2000亿美元
【报告】AI专题四:2025年AI搜索发展洞察报告(附PDF下载)
中国AI「星际穿越」!新智元十周年峰会预言ASI终局:未来十年指数级加速
直击IFA三星馆:AI Home是新瓶装旧酒,但生态协同是大势所趋
厦门市同安区-新一代 AI 超高清 IPC SoC 芯片研发和产业化项目可行性研究报告
AI大势掀风口,永光光刻胶获多家晶圆厂认证
工信部向中国联通颁发卫星移动通信业务经营许可;曝“苹果牌AI”年底国内推出;央视晒“红月亮”高清大图...
刚刚,光刻机巨头ASML杀入AI!豪掷15亿押注「欧版OpenAI」,成最大股东
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号