在OpenAI炼Agent一年半，回国做出首个开源Agent训练框架！这个30岁清华天才却说：创业不是技术命

编辑 | Tina、褚杏娟

姚班、伯克利、OpenAI、清华……年仅 30 多岁的吴翼身上已经聚集了众多亮眼的标签。

从小到大，似乎无论在哪个阶段、哪个领域，吴翼都可以交出一份不错的答卷：他是 ACM 世界奖牌得主，也是带队冲击 IOI 的教练；他亲历了 Facebook 2012 的崛起、字节跳动 2016–2018 的飞速成长，以及 OpenAI 爆火前的关键时期；他也自己参与了创业、全力做着开源项目。

吴翼创立的边塞科技在 2024 年被蚂蚁收购，团队积累 4 年的规模化强化学习成果如今都积累到了开源项目 AReaL 中，这是一个专为大型推理模型设计的完全异步的强化学习训练框架。目前在在 Github 上已收获 2.4k stars。AReaL 完全围绕 Agent 打造。谈及定位，吴翼直言：“按照这个定位我们没有竞品”。

在 10 月 23 日 -25 日的 QCon 上海站，吴翼将分享主题为《智能体时代的强化学习：AReaL 框架与 Agent 最佳实践》的演讲。在此之前，我们对吴翼进行了一次采访，他详细阐述了自己求学、OpenAI 工作和创业的经历和感受。主要观点如下：

中国的创业公司几乎没有机会走 OpenAI 这样的路线。
创业是个长跑，不能一直冲刺，一直冲刺就累死了，是大家慢跑，甚至走，边走边看 evidence，一旦看到 evidence 了就激进冲刺。一直冲刺是可能看不见 evidence 的。
AI 时代的变化太快了，是以月为单位的。目标确定了之后，不要做过度规划，要激进地寻找 evidence，然后激进地调整迭代。
如果从开源来说，那基本就是中国人的天下了。海外的整体开源水平都是很差的。

在 OpenAI，我学会了

以 evidence 驱动决策

InfoQ：您入职 OpenAI 时候 ChatGPT 还没有爆火，为什么会选择去 OpenAI？在您看来，当年的 OpenAI 跟现在相比有发生哪些变化吗？

吴翼：我那时候去 OpenAI 是个意外。我本来想去 Google Brain（因为 Brain 的学术 reputation 一直高过 OpenAI，那个时候更是这样），但是我很老实，我说我只待一年半我就要回国任教了。Google 有 headcount 限制，我待长待短都要浪费他们一个 headcount，就为了这个和 HR 部门扯皮了很久。OpenAI 的话他们是非盈利机构，没有 headcount 限制，我面试完第二周就打电话让我去上班了。当时我还很傲娇，我说不行，你等我一个月我要等 Google，结果 OpenAI 真的等了一个月，而同时 Google 那边还没搞定，于是我就去了 OpenAI。

InfoQ：您是 ACM 世界奖牌、IOI 银牌得主，也是 Topcoder 红衣选手、IOI 教练。在这些竞赛中，考验的是算法思维和编程速度吗？ OpenAI 曾在论文中展示 o3 模型在 IOI 测试集上拿下金牌，强调这是“不依赖 test-time trick 的 RL 扩展路径”，但上半年像 CCPC、IMO 这类真实竞赛，大模型几乎挂零。您怎么看待这两个不同的结果？

吴翼：ICPC 这些比赛（IOI 其实也有这种趋势了），在俄罗斯有个称呼叫 sports programming，我觉得非常准确。这个和电子竞技一样，本质上是个体育活动。它不是个考试，你很难用“考察什么能力”这样的问题去描述。当然算法思维和编程速度很重要，但竞技体育就涉及到更多的“技巧”以及心理因素了。

至于挂零，纯粹是模型不够好、没 ready 就拿出去的原因。比方说 IMO 这一次 Google/OpenAI 都用通用推理模型做到了金牌，字节用专用模型也拿到了不错的成绩。IOI 最近 AI 模型也夺金了。其实大模型没有这些人的竞技因素干扰，攻克这些比赛是迟早的事。

InfoQ：近期，谷歌 Gemini 和 OpenAI 在 IMO 上的“夺金”表现是否可以归功于 RL？如今 AI 正在大量“自动写代码”，您怎么看这种 shift，您觉得 IOI、ICPC 这类竞赛还有未来吗？

吴翼：是的。Gemini、OpenAI 都很明确的说了，是因为 RL 训练。

至于未来，我还是再说，这不是考试，这是个竞技体育。我们其实可以参考围棋 /Dota 的发展的。作为人的训练和比赛平台，这些领域总是有价值的，但是可能因为 AI 的出现产生新的规定和训练方式的变革。

InfoQ：您当前的工作主要聚焦在哪个领域？OpenAI 当时如何做赛道选择的？这对您后来创业的赛道选择有影响吗？

吴翼：我目前的工作主要聚焦在强化学习领域，更具体的说，我们所有的工作都围绕 AReaL 这个开源项目展开，AReaL 是一个面向大模型智能体训练的强化学习框架，我们希望通过 AReaL 帮助大家训练出好的智能体模型。

OpenAI 的所有赛道选择是两方面：

早期 OpenAI 是有 charter 的，他很明确的写了他这个公司要追求 AGI，要通过 scaling 追求 AGI，然后分了很多的方向开展研究，这个目标是 top-down 的。
GPT 系列的工作其实比较 bottom up，都是几个人（甚至是一个人，比如 GPT 早期基本就是 Alec Recford 一个人搞的）的工作看到了 evidence，然后大家 scale up。ChatGPT 也是几个人做出的原型，一下子火了（这个并不在 OpenAI 的计划之内），看到 evidence 之后，对于目标明确的小团队或者创业公司来说，做选择就太容易了。

至于我的研究工作，其实我一直也是 scaling 的爱好者（我 PhD 申请的文书写的就是我要做 large scale machine learning system，当时是 2013 年），我在 OpenAI 的经历也更加坚定了我的一些观念，这些是受到影响的部分。至于创业的话，边塞科技的创业起因也挺随机的，也无非是恰好团队会做一些事情，而这些事遇到了时代的机会而已。

InfoQ：您当时在 OpenAI 的工作，尤其是“Multi-Agent Hide and Seek”，是否属于 RL 核心团队中的一部分或是否是 RL 的研究主线？这里涉及的研究是否在后面已经投入到了实际的某个框架产品或模型设计中？还是更多被当作“探索性研究”？当时的智能体与现在的有什么区别吗？

吴翼：当时 OpenAI 有三个和 RL 相关的团队，一个是机器人团队，做的项目是机器手拧魔方，一个是 RL 团队，做的项目是打 Dota。还有一个就是我们 multi-agent 团队，做的项目是“智能涌现”（emergent intelligence），换句话说使我们希望通过多智能体交互和进化的方法，观察到智能体涌现出智能的行为，最后的成果是捉迷藏项目。这当然是 multi-agent 团队的研究主线的成果。

捉迷藏项目结束之后，我们又进行了一些自由探索，比如在 Minecraft 上的算法尝试，我离开后 OpenAI 也发表了在 Minecraft 上让 Agent 能够造出钻石的项目，这个就是当时的 multi-agent 团队的后续工作。

据我所知 multi-agent 团队应该是在 ChatGPT 出来之后解散了（很多团队都解散重组了，比如 Robotics，这个在 OpenAI 内部很常见）。后来 Noam Brown 加入 OpenAI 之后重新开启了 multi-agent 的方向。OpenAI 的具体工作一直都很有探索性，同时团队目标和人员流动都非常灵活，并不是强 KPI 和分工导向的。

至于当时的智能体和现在的智能体有什么区别，其实本质上唯一的区别就是有没有大模型、有没有做预训练。其实如果你站在智能体的角度上看，强化学习这 10 年其实本质上绕了一个大圈，回到了 OpenAI 一开始想做的事情。比如 OpenAI 在 2016 年有一个项目叫 World of Bits，这个项目做的事情就是通过强化学习让一个 Agent 在网站上买机票。这个项目做了一年失败了。但是如果你站在这个角度去看，十年后，OpenAI 不就是在做同样的事情么。

从 Agent/RL 的视角看，其实事一直没变，甚至技术也没太大变，只是当年缺了预训练。这个话题如果展开聊可以聊很多，这里不做展开了。有兴趣的同学可以了解了解 RL 早年的一些工作，我找机会也跟大家多分享吧。

InfoQ：Calvin French-Owen 在最近发表的文章中提到 OpenAI 是一个“把研究员当 mini-CEO”的地方，强调 bottoms-up、快速迭代、没有 master plan 的文化。您也曾在 OpenAI 做研究，后来开始创业——从今天一个技术创业者的视角看，您觉得 OpenAI 这样的组织范式是可以被小团队借鉴的吗？还是说它的“自下而上”更多是建立在极端资源富裕基础上的例外？

吴翼：我觉得可以。我甚至更偏激的认为觉得 AI 时代的团队必须是这样的。因为 AI 时代的变化太快了，是以月为单位的。目标确定了之后，不要做过度规划，要激进地寻找 evidence，然后激进地调整迭代。我自己的认知体系也不断在更新的。当然会有一些 belief 是不变的，但 belief 一定是很少且已经经过时间考验的，比如我可能坚定的相信 Agent，相信 RL，因为我从 AlphaGo 开始已经相信并且工作了 10 年了。

至于资源富裕与否，我觉得富有富的玩法，穷有穷的玩法，组织逻辑不会变的，AI 时代其实极大的放大了穷资源团队的能力了，穷团队无非是不能训练而已，其他都可以在 AI 加持下极高速推进。

InfoQ：对于未来践行 scaling law，OpenAI 当时“产品驱动科研”的方式还有借鉴意义吗？

吴翼：当然，我觉得现在也是成立的，我们团队也一直是这么践行的，就是咱们先不聊技术，先聊聊咱们想干出来个啥，这个东西厉害么？厉害，好的，我们开干，然后再去想咋干。

Scaling law 其实也是这个意识形态下的不断收集 evidence 的总结而已。他不是凭空冒出来的，是从 seq2seq、AlphaGO、Dota、捉迷藏、Rubik’s Cube、GPT 等等一系列的 evidence 不断增强的。

InfoQ：Calvin 在文中提到 Codex 团队用了 7 周就从 0 到 1 推出产品，并称这是他十年来最密集的冲刺。从创业者角度看，您如何看待这种密集“冲刺”的做法？这种节奏可复制吗？如果做不到，那么原因会是什么？

吴翼：这是典型的创业精神。也是优秀的创业公司的常态。

当然所有的创新和创业本质上一样，都是个长跑，不能一直冲刺，一直冲刺就累死了，是大家慢跑，甚至走，边走边看 evidence，一旦看到 evidence 了就激进冲刺。如果盲目一直保持冲刺状态反而是可能看不见 evidence 的。

做不到有两种原因：你的组织结构就不是奔着创新和创业去的，不是创业组织，所以就做不到这么快；或者你的创业 / 创新团队出现了问题。

InfoQ：硅谷和国内的创业公司有什么不同？离开 OpenAI 回来的决定会比较难下吗？您也在之前采访中提到当时回国时候“看到中国仍然有很多机会”，具体是什么？您觉得自己抓住了嘛？

吴翼：OpenAI 不能算典型的创业公司，所以我很难评论硅谷的创业公司。总体上我只能说硅谷的资源更多，对于技术创业者更友好。国内创业基本是个身心灵的修炼场。

我并不是去了 OpenAI 才决定回国的，我是去之前（2018 年 10 月）就已经和姚先生说好 2020 年 8 月回国任教了。当时甚至也没人知道 OpenAI 要做 profit 转化（导致我没拿股票），也没人知道会有疫情。

至于机会，我很难具体说。因为我也只是有个感觉，觉得这个时代应该有很多机会。我很有幸的见过 2012 年的 Facebook（我当时在实习），2016 到 2018 的字节跳动，有幸见过中国美国互联网，也有幸见过中国互联网时代的尾巴。那个 10 年中国创造了太多奇迹了，未来十年因为 AI 还会有的，只是机会是什么我不知道。

抓没抓住，我肯定至少是见着了，2012 年 Facebook，2016-2018 字节，2019-2020 OpenAI，2023 参与也见证了边塞团队创业。其实都能见着也不容易。抓的话，可能我确实手滑。

InfoQ：在 OpenAI 的经历，对您回国以后的创业和研究有产生什么影响？比如研发方式、团队管理等？

吴翼：创业的话没啥影响，因为中国的创业公司几乎没有机会走 OpenAI 这样的路线。

研究的话我团队一直是 product-driven research，并且非常看重基础设施和系统，这点是受到影响的。比如 AReaL 就是这个逻辑的产物。

InfoQ：从清华姚班到伯克利攻读博士，哪位 / 哪些导师给您的影响最大？为什么？在您看来，求学阶段的哪些习惯或经验，对您未来工作有很大帮助？

吴翼：首先肯定是姚先生，如果没有姚先生、没有姚班肯定不会有现在的我了。我们对于科学的探求，对于学术品味的形成，乃至对于极其寻找新的机会去突破自己的舒适圈，这些都很大层面上是源自于姚先生的个人魅力以及姚班的培养机制。这个是底层的东西。

学术博士期间，我的几个对我非常有帮助的人，首先当然是我的导师 Stuart Russell 教授，他可以说是强化了我对好的学术品味的认知，同时他也在我读书期间对我有很大的支持，支持我去做更多的探索。Stuart 是一个很好的 visioner，他说的很多话我当时不懂，但是回过头看会觉得越想越有道理。

其他的话对我有帮助的，有三个人很重要。一个是现在在 U Washington 的 Ras Bodik 教授，Ras 算是第一个手把手带着我做科研，带着我写 paper 整理思路的教授，对学生也非常的友好，算是第一个对我做严格科研思维训练的老师，只不过有点遗憾我我们只合作了一个项目他就从 Berkeley 去了 UW。

还有一个 Pieter Abbeel 教授，Pieter 教授是真正带着我走入强化学习的老师（我的第一篇工作 Value Iteration Network，当时获得了 NIPS2016 的 Best Paper 也是和 Pieter 做的），所以我后续的科研选择，Pieter 是起了决定性的因素的。同时 Pieter 也是很成功的创业者，以及他对待团队和极度支持学生的方式，也长期对我产生了很多的影响，我的可能很多工作方式都受他影响。

第三个是 CMU 的李磊教授，他算是我伯克利学术生涯的起点了（我最早在 Berkeley 的几个工作都是李磊在 Berkeley 博后期间带着我做的），如果不是因为李磊教授的赏识和培养我应该去不了 Berkeley 读书了。后来我之所以选择回国也受李磊很大的影响，是他 2016 年邀请我回到国内的字节跳动 AI Lab 实习，也因为这个契机让我埋下了回国的种子。

当然还有很多的朋友们无法一一感谢。

至于说对于工作有什么帮助，我其实觉得其实很难讲有什么直接的帮助，工作的经验并不能通过在学校里习得的，毕竟纸上得来终觉浅。我觉得更多的是去见过更好的人，然后让自己成为更好的人。

“创业不是个技术命题”

InfoQ：您在创立团队时选择了强化学习作为切入点，试图探索 AI 与人的对齐问题。如果把那个决定放在今天，您还会坚持当初的方向吗？如今，不少大佬都说时代不同了，创业已经不像以前一样，需要三五年死磕一个方向，在这个“快速试错”“不断调方向”的创业环境下，您如何看待当时的判断？

吴翼：创业是要看客观机会看势的，不是以自己主观为导向的。如果放在今天看，我觉得现在不是一个好的技术创业时间点。美国是的，中国不是。中国做具身可以，做产品可以，技术创业和算力芯片相关可以，纯 AI 技术的我建议慎重。

至于我自己，其实我当时也没有经验，啥也不懂，沾了时代的光而已。

InfoQ：在 2023 年的创业期间，整个行业格局变化非常快，边塞团队当时的创业状态是怎么样的？什么问题是最困扰你的？当时一大批清华系创业者“同根竞争”，你们私下会互相交流心得之类的吗？您当时有考虑如何从中“跑出来”吗？

吴翼：遇到的困扰太多了。技术和商业上其实都是小事，更多是人性上。对我个人而言，我整个人可能算重生了一次。

我觉得大家把竞争看的太奇怪了，商业竞争而已，大家私下里都是关系很好的朋友，也经常交流。大家不要总想着分蛋糕，AI 这么大的时代下，找到自己的位置，好好做事，大家一起把蛋糕做大才是。

InfoQ：有报道指出，您当初对“商业落地空间存在一些疑虑”，如今回头去看，您对此有没有新的反思或心得？

吴翼：创业者是需要理解商业的。大家都说要谋定而后动。话是没错的，但是你没做过你咋知道怎么谋呢？所以有机会就开始，就多尝试，试错是学习最快的一种方式。

InfoQ：您不止一次提到“创业难”，回头看您团队曾经踩过哪些坑？技术因素和非技术因素的都有吗？有没有是当时想不到、但后来代价特别大的？

吴翼：其实没啥技术原因，我到现在依然很自豪的觉得 AReaL 团队是世界顶尖的强化学习团队，放到硅谷去也是超一流的。

但是创业不是个技术命题，甚至都不是坑不坑的问题，很多事情不以人的个人主观意愿为转移的，可能时间窗口就那么点，且你当时的第一视角也不知道，有人做了那个决策，那就抓住了时间点；你没有做决策，主观上也不能说是错，但就客观上错过了那个时间点。谋事在人，成事在天而已。人能做的无非是提高抓住机会的概率，但怎么说还是个概率事件。

所以我总体上会建议年轻的同学们尽量多尝试，尝试就有>0 的概率。而且其实没什么代价特别大的，都是收获。

InfoQ：这段创业经历有没有改变您对大模型落地、产品形态或市场节奏的看法？

吴翼：相对了解的更多了一点。

InfoQ：未来您的团队还想创业吗？还是说更倾向继续做科研工作？您如今以什么方式投入到 AI 前沿研究中？

吴翼：今日不谈未来事。毕竟 AI 时代都是按月计的。

我们团队现在唯一的目标就是好好做好 AReaL 这个开源产品。

一切围绕 Agent，

没有竞品可比

InfoQ：AReaL 的出现，是否跟您之前的经历有关系？在技术路线上，延续了哪些过去的想法，又做出了哪些转向？

吴翼：我们团队从 2020 年就开始做开源的规模化的强化学习工作，从最早的 MAPPO，到后来的 SRL，再到 ReaLHF，再到现在的 AReaL，基本一脉相承，都是 RL scaling，首先满足自用，然后开源。不过我们因为长期自用所以从产品角度看我们的开源工作其实一直做的不大好（MAPPO 其实写的也挺烂），今年开始比较认真的把 AReaL 当成一个重要的开源产品推进。

截图来自：https://github.com/marlbenchmark/on-policy

编辑注：MAPPO 是一个轻量级、高度优化且运行速度极快的多智能体 PPO 库，专为学术研究场景设计。它在多种协作型多智能体基准测试中表现优异，达到或接近最先进水平（SOTA），包括 Particle-World (MPE)、Hanabi、StarCraft Multi-Agent Challenge (SMAC) 以及 Google Football Research (GFR)。

InfoQ：我们注意到您团队从 2021 年开始就搭建了专属的分布式强化学习框架。并发布了分布式 RLHF 训练框架 ReaLHF。那么从 ReaLHF 到 AReal，是一次平滑的演进，还是一次技术重启？

吴翼：MAPPO->SRL->ReaLHF->AReaL 都是一脉相承的。

截图来源：https://github.com/openpsi-project/ReaLHF

InfoQ：AReaL 的定位是什么？有相似的“竞品”吗？一个好的 RL 框架主要有哪些考量因素？

吴翼：AReaL 从设计的第一天起，出发点就是让人更快训练出更好的 Agent 模型。一切围绕 Agent。其实按照这个定位出发点 AReaL 是唯一的，算是目前还没有竞品吧。毕竟我们团队从第一天开始，就在做 Agent 和 RL，坚持算法工程化并一直持续迭代到现在，挺独特的。当然这里有很多地方可能要跟大家科普的，为什么我们的设计可以做 Agent，为什么我们的设计大家好用，后续我们慢慢开直播跟大家科普（广告一下，大家也可以在视频号关注 AReaL- 吴翼以及蚂蚁开源，都能看到 AReaL 团队的一些科普和直播内容）。

好的框架无非: 1. 好且快：能够产出 SOTA 模型且快；2. 好用：能够让用户简单改一两个代码文件就完成定制的 agent workflow 和 RL 训练。AReaL 一开始围绕 1，最近 AReaL-lite 发布，我们终于能围绕全部的 1 和 2 把整个系统做了重构。

InfoQ：特别是您之前有提到，OpenAI 有自己的强化学习训练框架，大家都可以在上面进行验证，如果要把 AReal 和 OpenAI 的这个框架放在一起进行对比，那么它们之间的关键差异有哪些？海内外在 RL 训练框架上还有明显差距吗？

吴翼：首先，我不知道大厂内部的框架到底怎么样。我也离开 OpenAI 5 年了。确实没法评论。

如果从开源来说，基本就是中国人的天下了。但是头部公司肯定有很好的 infra，我相信这一点（尤其 OpenAI 和 Anthropic），毕竟大家理念都很像，大公司有更多资源和更好的团队，这些公司的组织也很好，没有道理做的比我们几个人做的差的。比如 OpenAI 就可以一个礼拜内让几个人创造出 ChatGPT，这就是好的 infra 的作用。

InfoQ：您之前有提到 RL 目前三大分支：泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI)，那么 Areal 在这三个方向中更倾向或看重哪个？

吴翼：首先我觉得你很难简单的把三个分支和三个公司对应起来。模型能力是很复合的。只是各个模型有一些特色而已。Anthropic 和 OpenAI 泛化也做的很好。最后无非是细节差异而已。

AReaL 也是一样，AReaL 是围绕 Agent 打造的项目。好的 Agent 也会需要泛化能力和代码能力的。所以 AReaL 也可以训练很好的代码模型和泛化的模型的。

InfoQ：您曾提到 Areal 主要服务开发者，并希望展示如何使用框架训练 Agent 模型，能不能聊聊这个的设计思路？并且为什么做 Agent 应用需要一个 RL 训练框架？

吴翼：做 Agent 应用不一定非要用 RL 训练。应用应该以用户为第一快速迭代。

但是如果有一天资源成本下降，那么用 RL 可以训练出更好的 Agent 模型，可以帮助应用团队打造出更好的 Agent 产品。我们希望能够让大家都享受到 RL 技术发展的红利。

InfoQ：目前 AReaL 已发布多个版本，在数学和编码领域已经达到开源的顶尖水平，接下来的开源路线和规划是什么。如何看待 AReal 对整个 Agent 生态和应用场景的意义？

吴翼：欢迎关注 AReaL-lite 项目，这是我们重新为了算法研究和用户迭代做的新版本。欢迎使用。https://github.com/inclusionAI/AReaL

也欢迎关注 ASearcher 项目，这是一个用 AReaL-lite 训练的 search agent，希望能够给大家有所启发和帮助。https://github.com/inclusionAI/ASearcher

判断技术潜力和未来展望

InfoQ：判断技术潜力从单个 Agent 到多智能体系统（Multi-Agent），在实际落地过程中面临哪些新的挑战和机遇？

吴翼：目前来看，multi-agent 是一个必要的方向，因为 agent workflow 是很复杂的，很可能需要多个智能体配合。同时未来智能体普及后，智能体之间的交互和算法逻辑也会需要依赖多智能体算法。整个智能体系统会变得更加复杂，而更复杂的系统肯定就有更多的算法和 infra 的机会。这些需要大家一起探索的，我们也是希望 AReaL 能够帮助大家更容易更快速的探索这些新机会，和大家一起进步。

InfoQ：您对 Agent 技术未来的发展方向怎么看？是否存在新的范式、框架或关键突破点值得关注？

吴翼：Agent 一定会成为大模型交互形式的主流，从被动的交互变成主动为用户节省时间。Agent 自主探索和工作的时间和空间都会越来越大。因此算法提升的空间也就会越来越大，从具体目标驱动，到更开放的环境中。

新的范式一定会存在的，欢迎大家持续关注 AReaL 团队的发布和 release，希望我们能把关键点早点做出来，也希望和大家一起探索更广阔的智能体的未来。

会议推荐

10 月 23 - 25 日，QCon 上海站即将召开，现在大会已开始正式报名，可以享受 8 折优惠，单张门票立省 1360 元（原价 6800 元），详情可联系票务经理 18514549229 咨询。

资讯配图