AI 的未来:扩展可能不是策略,RLHF 才是

智能情报所 2025-10-13 15:34

今天我想和大家深入探讨一些思考,希望你能耐心读完。身处这个行业,每天都日新月异,感觉时间在加速流逝。

智能体 AI,才是未来

我越来越觉得,不能把人工智能简单看作一个工具或纯粹的技术。

思考它将如何变革社会时,总会让我联想到马克·安德森那篇著名的文章《为什么软件正在吞噬世界》。

现在,新的问题摆在我们面前:人工智能将如何具体地吞噬这个世界?

格雷格·伊森伯格的观点一针见血:应用商店曾给软件行业带来颠覆,而智能体构建者,未来可能为智能领域带来同样深刻的变革。

All-In 播客的大卫·弗里德伯格也提到,人工智能终将解放人们的时间。

而人们会用这些多出来的时间,投入到更多工作或更多娱乐中。这或许意味着,我们花在内容和游戏上的时间会更多,这对 Netflix 和腾讯是长期利好。

除了阅读、听播客和陪伴孩子,我终于有时间静下心来,深入思考这些趋势背后的一个宏大主题:

单纯追求规模的范式还走得通吗?我们是否正在转向一种更务实、更依赖强化学习的新路径?

接下来,就是我的思考。

强化学习,正在改变游戏规则

今年一月,我们曾探讨过 OpenAI 的 o3 模型是否改变了关于扩展定律的辩论。

十个月过去,我终于形成了一个更具体的认知框架:未来人工智能在真实场景中的应用,或许并不总需要最大、最新的大语言模型。

我们先来理解几个基本概念。

扩展,就是通过投入更多数据、算力和参数,把基础模型做得更大,以此来解锁更强的通用能力。这一点我们都很熟悉。

强化学习,则另辟蹊径,它的核心是在实践中学习。

一个智能体先去尝试任务,根据结果获得奖励或惩罚,然后调整策略再试一次。

如果这种反馈来自于人类专家,那就是基于人类反馈的强化学习(RLHF)。它能让系统针对场景中真正重要的因素进行优化,比如准确性、语气、安全性等。

AI 的未来:扩展可能不是策略,RLHF 才是图1

想象一个销售跟进的场景:销售打完电话,需要写邮件、在系统中填字段、并安排下次联系。

通过强化学习,模型可以反复模拟这个流程,由销售专家为每次尝试打分。

慢慢地,系统就会知道什么样的措辞回复率更高,怎样填写字段能减少后续的修改。

接下来,我想把我从马克·安德里森、伊桑·莫里克教授和红杉资本的帕特·格雷迪那里得到的启发整合起来,看看它们是如何帮我理解人工智能的未来的。

通往实用性的新路径

在一个月前的投资会上,帕特·格雷迪分享了一个绝妙的比喻,巧妙地解答了扩展定律与强化学习的困惑。

他让我们把一个模型想象成一个球。扩展,就像是不断往球里充气,让球的体积变得更大。

而基于人类反馈的强化学习(RLHF),则是在球上增加尖刺。每一根尖刺,都代表一项通过实践磨练出的特定技能。

只要加上足够多的尖刺,即便球的核心体积没有增大多少,它在关键领域的触及能力也会大大增强。

  • 扩展 = 充气(数据、算力、模型大小)→ 追求更强大、更炫酷的通用能力(例如精通博士级别的数学和物理难题)。

过去两年,整个行业都在合力吹一个巨大的沙滩气球,想让它大到能覆盖所有应用场景。

这就是扩展定律的世界观:如果模型能力不够,那就继续往里充气。但我们换个思路,如果不再执着于充气,而是在球上安装尖刺呢?

每一根尖刺都代表一项经过实战打磨的专业技能。当尖刺足够多,这个球不仅体积变大,而且变得异常实用,因为它能牢牢地抓住地面。

说实话,我起初不太喜欢这个比喻,觉得有些花哨,但现在我领会了其中的精妙。

AlphaGo 就是最经典的例子。它不是靠背棋谱取胜,而是在无数次对弈中学习制胜策略,好棋获得奖励,坏棋受到惩罚。

这个思路之所以重要,是因为追求无限扩展的道路,既昂贵又不确定。

下一个数量级的空气从哪来?我们去哪里找那么多干净的数据、廉价的算力,以及庞大的预算?

从天才毕业生到行业专家

很多人最初的梦想,是创造一个无所不能的超级模型,能同时写诗、起草合同、还能顺便修复代码。

但现在,思路可以转变了:让研究者们继续去探索前沿模型,挑战性能极限。

而商业世界的建设者们,可以停止争论扩展曲线是否见顶,转而思考如何更好地利用强化学习。

强化学习的承诺是:它不会告诉你一个更大的大脑能奇迹般地解决你的所有问题,而是告诉你如何教会这个大脑胜任一份具体的工作。

你可以把基础模型看作一个才华横溢的应届生:知识渊博、逻辑严谨,记忆力惊人,但毫无工作经验。

如果放任不管,它可能会写出用词华丽却不得要领的邮件,或者用格式完美但内容全错的信息填满你的客户管理系统。

强化学习,就是它的学徒期。

顶级的销售员陪它进行角色扮演,告诉它哪句话能打消客户疑虑,哪句话会搞砸气氛。

护士长会审查它写的临床记录,奖励清晰的表达,惩罚可能带来风险的疏漏。

通过这种方式,把人类专家多年积累的知识、直觉和行业经验,一点点传授给它。

每一次强化学习的循环,都会在模型身上留下印记,最终形成一种我们过去认为只有人类才具备的肌肉记忆。这就是一根根尖刺。

这正是人工智能在我们身边真实发生的应用方向。

伊桑·莫里克在他最近的文章《真正的 AI 智能体与真正的工作》里,精准地描述了这一转变。

他认为,尽管生成式 AI 能帮人完成很多任务,但始终离不开人的监督,因为 AI 会犯错。没有人在每一步进行引导,就无法创造真正的价值。

莫里克还写道:“智能体并不具备人类意义上的自主性。我们需要决定如何使用它们,而这个决定,将在很大程度上定义工作的未来。”

核心瓶颈已经反转

正因如此,发展的瓶颈已经彻底反转了。

现在的限制因素,不再是模型本身的智商高低,而是围绕它的配套设施:数据管道、奖励机制的设计、专家的投入时间,以及安全的工具调用权限。

去年,我们还在屏息凝神,期待模型能力再次飞跃,盼着扩展定律继续显灵。

如今,这种不确定性已大大减少,取而代之的是一条更清晰的路径:如何将人工智能融入现有的数字化体系中。

今天的瓶颈不再是原始智能,而是我们为它搭建的脚手架。你的数据管道,能否为智能体提供新鲜、合规的上下文信息?

你对成功的定义,是否足够精确,以避免它在优化时走偏?比如你想要清晰,它却只追求简短。

人类教练是否能有效指导?还是他们自己也身兼数职,分身乏术?

智能体是否有足够安全、带护栏的工具权限去完成任务,而不仅仅是描述任务?

这些都不是什么深奥的科学难题,而是一个优秀组织每天都在解决的工程和流程问题。

这也正是“带刺的气球”这个比喻充满希望却不天真的原因。

扩展定律让我们相信,只要把中心吹得足够大,价值就会自然渗透。而强化学习则给了我们一张清晰的行动地图:

  • 选择一个任务,定义奖励,反复训练,接入生产,衡量效果,然后循环往复。

不确定性从“我们能否等到下一个涌现能力?”转变为“我们能否建好并维护这个反馈循环?”。这是一种更可控、更优质的风险。

当然,强化学习也有陷阱。智能体会优化你设定的指标,却未必能理解你真正的意图。有些东西无法用语言传达,比如直觉、经验或某种不祥的预感,别指望智能体能懂。

如果你奖励简洁,就别惊讶它会产出篇幅低于 100 字但自信满满的胡言乱语。

在企业里,像使命、文化、品牌调性这类模糊的领域,往往没有标准答案。

这就需要你建立一套稳健的评估体系,并由资深专家定期校准方向。

随着智能体接入更多系统,一个权限错误可能造成的破坏会成倍增加。因此,治理必须是设计之初就考虑的要素,而不是事后补丁。

这些挑战并非让我们退缩,而是提醒我们,要把强化学习看作一项持续的运营工作,而不是一个一次性的项目。

最后,你可以把这些“尖刺”看作是企业的护城河和知识产权。

每一次反馈训练,都将专有技术和经验编码进模型,这是竞争对手无法简单下载或复制的。

企业的投入重心,也从一次性的模型训练,转向可重复的体系建设:专家的时间、工具链、系统集成和效果追踪。

所以未来,在评估一家公司时,或许可以多问问:他们用强化学习打磨了哪些业务流程?带来了多大的可量化提升?智能体的学习迭代频率是多久?背后的教练团队是否专业可靠?

一个不成熟的看法:去训练你的尖刺吧

那么,扩展定律真的走到头了吗?也许没有,我也没有资格下此定论。

我想,用当初大家形容深度探索模型的话来说,或许更贴切:它已经足够好了。

这呼应了文章开头的观点:当起点很低时,增长看起来是指数级的。但到某个节点,大小本身不再那么重要,更关键的是通过专业知识和技能,去构建你自己的尖刺。

我们今天所熟知的模型,确实遇到了实用性的瓶颈。更大的模型依然重要,但这更是科学家们需要继续探索的疆域。

对于商业世界而言,下一程的道路是由强化学习铺成的。它将让人工智能以更务实的方式,变得更有用。

现在,通过智能体 AI,我看到了一个无比清晰的愿景:

教会它一项工作,搭建好反馈循环,磨利一根尖刺,提升业务指标,然后为下一个任务重复这个过程。

基于人类反馈的强化学习,利用人类的评估和范例,教会模型在特定任务中何为优秀。

而智能体,则是在此基础上,被授予访问你的应用、数据和规则的权限,从而端到端地完成复杂的多步任务。

简言之,强化学习赋予模型判断力,智能体则将这种判断力应用于生产实践。

最后再引用一次莫里克的话:“智能体已经来了。它们能做实际的工作,虽然能力尚且有限,但其价值真实存在,并且在不断增长。”

所以我的观点是,我们每个人都有责任去学习如何引导、控制和识别 AI 的工作,因为知识型工作的下一个时代,就属于智能体 AI。


一键三连

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
【投融资】获红杉和老虎基金支持,Everworker正在成为永远在线的AI劳动力
【AI】AI科学家时代的标志:获得诺贝尔奖
所有AI的馈赠,早已在暗中标好了价格
我用LiblibAI,一人做完电商内容团队干一周的活
硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
华人团队论文登上Hugging Face日榜前三,让多模态AI自我进化,超越现有SOTA方法
OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作
百度秒哒负责人朱广翔:AI开发革命的终局,是让创意本身成为唯一的“代码”
【报告】总结专题二:2025 年中电子行业总结:AI 驱动增长,国产替代成核心主线(附PDF下载)
Mamba-3惊现AI顶会ICLR 2026!CMU知名华人教授一作首代工作AI圈爆红
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号