训练 AI 智能体:硅谷为何重金押注模拟环境

智能情报所 2025-09-22 17:01

作者:Maxwell Zeff

2025 年 9 月 21 日

多年来,科技巨头的 CEO 们一直在描绘一个宏大愿景:AI 智能体能像人一样,自主操作各种软件来完成任务。

但现实是,如果你亲自上手体验一下当下的 AI 智能体,比如 OpenAI 的 ChatGPT Agent 或 Perplexity 的 Comet,就会发现它们的能力还相当有限。

要想让 AI 智能体真正强大起来,整个行业或许需要一套全新的技术,而这套技术仍在探索之中。

强化学习环境,就是其中一项关键技术。它通过精心模拟工作空间,让智能体在其中接受多步骤任务的训练。

正如标记数据集曾是上一波 AI 浪潮的燃料,强化学习环境,正成为智能体时代不可或缺的核心要素。

AI 领域的顶尖研究者、创始人及投资者向 TechCrunch 透露,各大 AI 实验室对强化学习环境的需求正急速升温,无数初创公司也看准了这一风口。

Andreessen Horowitz 普通合伙人 Jennifer Li 在采访时就表达了这样的观点:所有大型 AI 实验室都在内部构建自己的强化学习环境。

但她也指出,创建这类数据集极为复杂,因此实验室们也在积极寻求外部合作,寻找能提供高质量环境和评估方案的第三方供应商。这已成为整个行业关注的焦点。

这股热潮催生了一批融资能力极强的初创公司,如 Mechanize 和 Prime Intellect,它们都立志成为该领域的领导者。

与此同时,像 Mercor 和 Surge 这样的数据标注巨头也在积极转型,大力投入强化学习环境,以适应行业从静态数据到交互式模拟的转变。

顶级实验室的投入决心更是惊人。据 The Information 报道,Anthropic 的高层正商议在未来一年内,为此投入超过 10 亿美元的巨额资金。

所有投资者和创始人的共同期望,就是能诞生一家环境领域的 Scale AI。后者是在聊天机器人时代崛起的、价值高达 290 亿美元的数据标注巨头。

但这一切背后,最根本的问题仍然存在:强化学习环境,真的能再次推动 AI 的前沿边界吗?

模拟环境到底是什么?

本质上,强化学习环境就是一个训练场,它忠实模拟了 AI 智能体在真实软件中的所有可能操作。

一位创始人曾在访谈中将其比作:创造一个非常硬核却又略显枯燥的视频游戏。

举个例子,一个环境可以模拟出 Chrome 浏览器,并给 AI 智能体下达指令:去亚马逊网站上买一双袜子。

智能体的每一步操作都会被评估,一旦成功买到合适的袜子,系统就会给它发送一个奖励信号。

这个任务听起来简单,但 AI 智能体在执行中却可能处处碰壁。它可能会迷失在网页复杂的下拉菜单里,也可能一次性买下过多的袜子。

开发者无法预知智能体会走错哪一步,因此环境本身必须足够稳健,能捕捉所有意外行为,并给出有价值的反馈。这使得构建环境的复杂度远超静态数据集。

有些环境的设计极为精巧,允许智能体调用工具、访问网络,甚至组合使用多种软件来完成复杂任务。

另一些则更加聚焦,专门用于训练智能体在特定的企业软件中,熟练掌握某项专门技能。

虽然强化学习环境是当下的热点,但这项技术并非凭空出现。早在 2016 年,OpenAI 的早期项目之一就是构建与现代环境概念极为相似的 RL Gyms。

同年,Google DeepMind 的 AlphaGo 系统,正是在一个模拟的围棋环境中,通过强化学习击败了人类世界冠军。

今天的独特之处在于,研究者们正尝试用大型 Transformer 模型,去构建能操作通用计算机的 AI 智能体。这与 AlphaGo 这种专用系统完全不同。

如今的起点更高,但目标也更复杂,失败的可能性也随之大增。

群雄逐鹿的赛道

数据标注领域的传统强者,如 Scale AI、Surge 和 Mercor,都在积极入局,试图抓住强化学习环境带来的新机遇。它们资源更雄厚,与顶尖实验室的关系也更紧密。

Surge 的 CEO Edwin Chen 表示,近期 AI 实验室对强化学习环境的需求出现了爆炸式增长。

这家据称去年营收高达 12 亿美元的公司,已经专门成立了新部门,全力攻坚这一领域。

紧随其后的是估值百亿的美金的 Mercor。据其营销材料显示,Mercor 正向投资者力推其在编程、医疗和法律等垂直领域的环境构建业务。

其 CEO Brendan Foody 在采访中直言:很少有人真正理解强化学习环境这个机会有多么巨大。

曾经的数据标注霸主 Scale AI,在经历核心高管被 Meta 挖角、以及被 Google 和 OpenAI 终止合作等一系列动荡后,正努力调整身位,希望能迎头赶上。

Scale AI 的产品负责人 Chetan Rane 对此表示:快速适应是我们的基因。从自动驾驶到大语言模型,再到如今的智能体和环境,Scale 总能跟上技术的浪潮。

一些新锐玩家则更加纯粹,从创立之初就只专注于环境。

其中,成立仅半年的 Mechanize 目标极为远大,声称要自动化所有工作。但其联合创始人 Matthew Barnett 坦言,公司会先从为 AI 编程智能体构建环境做起。

他强调,Mechanize 追求的是少而精的策略,即为实验室提供少量但极其强大的环境,而非像大厂那样铺开大量简单的环境。

为此,他们不惜开出 50 万美元的年薪来招聘顶尖的软件工程师,这远非传统数据公司的外包人员所能比拟。

已有两位知情人士确认,Mechanize 已经在和 Anthropic 就强化学习环境展开合作,但双方均对此拒绝置评。

另一些公司则认为,环境的价值不应局限于顶级实验室。

由著名 AI 学者 Andrej Karpathy 等人投资的 Prime Intellect,就将目光投向了更广大的小型开发者群体。

上个月,Prime Intellect 推出了一个 RL 环境中心,立志成为强化学习环境领域的 Hugging Face。

它的核心理念,是让开源社区也能用上大厂级别的资源,并通过销售配套的算力资源来盈利。

Prime Intellect 的研究员 Will Brown 指出,用强化学习环境训练通用智能体,其算力消耗远超以往。

这意味着,除了环境构建者,为整个过程提供算力的 GPU 厂商也将迎来新的巨大机遇。

Brown 认为,这个市场太过庞大,任何一家公司都无法独占。他们的策略是先构建好开源的基础设施,并以算力服务作为自然的商业入口,着眼于长远布局。

这条路,真的能走通吗?

一个根本性的问题始终萦绕不去:强化学习环境这条技术路线,真的能像过去的方法一样,被成功地规模化吗?

乐观的一面是,过去一年 AI 领域的诸多重大突破,例如 OpenAI 的 o1 和 Anthropic 的 Claude Opus 4,背后都有强化学习的强大驱动。

在先前技术路线的回报日渐衰减的背景下,这些成果显得尤为重要。

环境,是 AI 实验室在强化学习上整体押注的关键一环。许多人坚信,只要不断投入更多数据和算力,这条路就能持续带来进步。

悲观的一面是,这条路充满挑战。Meta 前 AI 研究负责人 Ross Taylor 就警告说,强化学习环境极易出现奖励作弊的问题。

所谓奖励作弊,是指 AI 为了获得奖励信号而抄近路,甚至弄虚作假,却并未真正学会需要掌握的技能。

Taylor 认为,人们严重低估了规模化环境的难度。即使是目前最顶尖的开源环境,不经大量修改也基本无法使用。

OpenAI 的工程主管 Sherwin Wu 在一档播客中也直言,他并不看好这类初创公司。他认为赛道过于拥挤,且 AI 研究日新月异,初创公司很难跟上实验室的节奏。

即便是投资了 Prime Intellect 的 Andrej Karpathy,也对强化学习的潜力表达了审慎。

他在社交媒体上发文,对自己曾看好的强化学习还能带来多少实质性进展,提出了疑问。

他这样总结自己的看法:

我看好模拟环境和智能体交互的未来,但我对强化学习本身,持保留意见。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
AI智能机器人独角兽,100%控股宝马子公司!
【AI加油站】第五十三部:智能无疆:《人工智能:现代方法(第 4 版)》全景解读(附下载)
演讲实录丨CAAI名誉理事长李德毅院士:百年之大变局——智创未来,未来已来
上合组织AI合作框架的战略重点与内部磨合:在主权分歧与集体叙事间构建非西方范式【AI战略洞察】
让AI读懂你的公司:首个「战略上下文包」实践指南来了
训练 AI 智能体:硅谷为何重金押注模拟环境
芯报丨甲骨文计划与Meta达成200亿美元AI云计算协议
如何占据AI先机?“AI+制造业”的实战方法论
图灵得主Yoshua Bengio,开始警惕AI有意识了
这一次,天玑9500的端侧AI能力,友商赶不上了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号