本文源自 OpenAI 研究员 Jason Wei 的一篇随笔。作为思维链 (CoT)的作者,他从自己深耕的强化学习领域,巧妙地引申出关于个人成长的深刻洞见。
过去一年,我痴迷于强化学习,几乎所有醒着的时间都在思考它。这竟无意中,让我悟出了一个关于人生的深刻道理。
强化学习中有一个核心理念叫同策略学习(on-policy):相较于模仿他人的成功轨迹,你更应该走出自己的路,并从每一次与环境的互动中学习。
当然,模仿学习是起步阶段的利器,能帮你快速入门,避免从零开始。
可一旦你具备了独立前行的能力,就应果断摆脱模仿。因为发挥个体独一无二的优势,是通往卓越的唯一路径。
一个公认的实例是,在训练语言模型解决数学题上,强化学习的效果远胜于在人类书写的思维链(CoT)上进行监督微调。
人生亦是如此。学校教育本质上是一种模仿学习,它为我们打下坚实的基础,这无可厚非。
但我发现,即便离开校园,自己仍下意识地研究他人范例,试图复制他们的成功。
这偶尔有效,但我终将触及天花板。因为我只是在模仿别人的长处,而非发挥自己的天赋。
比如,一位研究员能更轻松地完成探索性实验,因为代码库由他亲手搭建;又如,一名足球员能靠我所不具备的力量优势牢牢控球。
同策略学习给我的最大启示是:想要超越前人,就必须走自己的路,亲身去体验与世界碰撞所带来的风险和回报。
我有两个比多数研究员更热衷的习惯:一是大量阅读原始数据,二是通过消融研究去理解系统各组件的真实效用。
一次,我花了几天时间细读数据,并为每位标注员提供个性化反馈。最终的数据质量极高,也让我对任务本身产生了极为宝贵的洞见。
今年,我花了一个月,对自己过去在研究中那些凭感觉、拍脑袋做出的决定,逐一进行复盘和消融研究(可以理解为一种“控制变量的排除法实验”)。
这段漫长而专注的投入,让我学到了关于强化学习的独到见解。我不仅因追随内心热爱而倍感充实,更感到自己正为我的研究,开辟出一条真正独特的道路。
总而言之,模仿是成长的序章,你必须经历。
但若想青出于蓝,在完成起步后,你必须切换到同策略的人生模式,在属于你自己的优劣势中,走出独一无二的轨迹。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!