经典之作PPO算法:曾被NeurIPS拒了

机器之心 2026-06-21 17:05
经典之作PPO算法:曾被NeurIPS拒了图1
机器之心编辑部


真是令人意外。


PPO(Proximal Policy Optimization)这个后来在 RLHF 和大模型训练中被广泛使用的经典算法,当年曾被 NIPS 2017 拒之门外。


这件事最近由 PPO 作者 John Schulman 本人提起。他只用一句话概括了这段往事:PPO,曾经被 NIPS 2017 拒了。


经典之作PPO算法:曾被NeurIPS拒了图2


这篇最早在 2017 年 7 月发布的论文,当时看起来只是一个更简单、更工程友好的策略优化算法。它的目标,是在保留 TRPO 稳定性的同时,降低实现复杂度,让强化学习训练更好调、更实用。


经典之作PPO算法:曾被NeurIPS拒了图3



但几年之后,真正把 PPO 推向更大舞台的,反而不是 Atari、机器人控制这些传统强化学习任务,而是大语言模型。


从 RLHF 到今天的 RLVR,PPO 成了大模型后训练里绕不开的基础算法之一。按照 Schulman 的说法,PPO 在 LLM 时代迎来第二波热潮,原因甚至超出了原论文当年的预期。


经典之作PPO算法:曾被NeurIPS拒了图4


这看起来并不像是 Schulman 在抱怨当年被拒稿,而更像是一种事后感慨:一项技术的真正影响力,往往会以发明者最初没有预料到的方式释放出来。


看到这里,很多人自然会好奇:PPO 当年为什么会被拒?


Schulman 后来给出的解释是,这篇论文在当时被认为创新性有限,相比已有基线方法的提升也不够明显。


经典之作PPO算法:曾被NeurIPS拒了图5


有网友评论「这背后其实折射出学术评价与真实产业需求之间的一种错位。学术界往往更看重新颖性,以及在小规模、受控实验环境下相对基线的提升;而真实世界更在意的是方法能不能扩展到更大规模,能不能在复杂系统里保持稳定,能不能真正跑得起来。」


经典之作PPO算法:曾被NeurIPS拒了图6


Schulman 对此也显得很平和。他表示,那已经是很久以前的事了,希望这些年过去之后,学术界已经逐渐理解并吸收了这种「简单但可规模化」的审美。


真正让他意外的是,PPO 这篇论文以及其中的目标函数,竟然能持续影响这么久。一个算法改动到底只是很快被遗忘、被替代的小修小补,还是会长期留在系统里、变成难以超越的基础组件,往往很难在一开始就判断出来。


而 PPO 的故事,恰恰说明了这一点。


经典之作PPO算法:曾被NeurIPS拒了图7


其实何止 PPO。AI 史上不少后来被证明影响深远的工作,都曾在最初投稿时被顶会拒之门外。



更多案例请参考《》。


有时候,时间才是最严格、也最公平的评审。


经典之作PPO算法:曾被NeurIPS拒了图8


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IP
more
iPhone 18 或延至 2027 年上市; SpaceX 大涨,市值反超台积电;招行推「AI Token 信用卡」| 极客早知道
扒遍了iOS 27后,我发现折叠iPhone已经悄悄「官宣」了
被传IPO前夜,小红书用世界杯买“男性增量”
苹果也顶不住!DRAM、闪存成本是上代四倍,新iPhone或涨近1500元
iPhone大涨价,该来的还是来了
又一赛道龙头IPO,IDG携11亿“突击进场”
小红书拟秘密赴港递交IPO
iPhone18Pro价格暴涨?苹果酝酿全新升级
苹果后续布局曝光:2028款iPhone升级 1.4nm 工艺
早报|美媒:美伊已签署谅解备忘录;小红书拟秘密赴港IPO;英国官宣16岁以下全面禁用社交媒体;爆冷!西班牙0-0佛得角
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号