RLHF核心专家发声:训练AI的经验告诉我,AGI是工程问题,我们工程师造的是飞机,不是鸟

智能情报所 2025-08-17 11:58

我们不必执着于把飞机造得更像一只鸟。

作者:内森·兰伯特

日期:2025年8月15日

Dwarkesh Patel 那篇广为流传的文章,核心观点是持续学习的瓶颈让他延长了对人工智能发展周期的预测。

但在我看来,我们现有的技术已经是通用人工智能了。所以,真正的问题应该是:持续学习真的是人工智能发展的瓶颈吗?

我认为,他所说的那种持续学习,对我们当前的人工智能发展路线其实无关紧要。

持续学习的问题最终会解决,但它的解决方案很可能会催生一种全新的人工智能,而不是对现有的大语言模型系统进行无尽的优化。

对于人工智能研究者而言,持续学习就像一个极具诱惑力的技术难题,让他们沉迷其中。

可现实是,我们只需持续扩大系统规模,就能自然而然地获得与人类学习方式几乎无异的能力。

首先,我们来回顾一下 Dwarkesh 对持续学习的看法,以下是其文章的核心内容:

人们常说,即便人工智能的所有进展戛然而止,现有系统的经济变革潜力也远超互联网。我并不同意。

我承认今天的大语言模型很神奇,但财富500强公司迟迟没有用它来改造业务流程,并非因为管理层太保守。

根本原因在于,我们很难从大语言模型那里获得像普通人一样稳定的劳动输出,这背后是模型能力的根本性缺失。

我自认为在人工智能领域非常前沿,曾花上百小时为我的后期制作流程打造大语言模型工具,但这些经历反而让我拉长了对未来的预期。

我试着让模型像人一样重写自动生成的文稿,让它们从稿子里找出适合发推文的片段,或者和我一起逐段写文章。

这些任务都非常简单、独立、短期,纯粹是语言的输入和输出,本该是大语言模型最拿手的看家本领,但它们的表现最多只能打5分。

这已经很了不起了,但根本问题在于:大语言模型不会像人一样持续进步

缺乏持续学习是个天大的问题。虽然模型在许多任务上的初始表现可能超过普通人,但我们没办法给它高层次的反馈。

你只能接受它出厂时的水平。无论怎么调整系统提示词,都无法实现像人类员工那样真正的学习和成长。

这个论点最让我无法认同的地方,就是那种总想让我们今天的大语言模型模仿人类的执念。

我很惊讶 Dwarkesh 和其他关注通用人工智能的顶尖人士会陷入这种思维。这和那些声称 AI 不会推理的批评者,犯的是同一个根本性错误。

执着于让 AI 更像人,反而可能把技术进步引向一条死胡同。

人类智能曾是 AI 的灵感灯塔,但我们早已驶过那个阶段。如今整个行业都已 all-in,不惜代价地打造最强的语言模型。

我们不再是想造一只机械鸟,而是要用最短的时间,把莱特兄弟的飞机迭代成波音737。

简单来说,我的观点可以总结为:

  • 语言模型会像人类一样推理吗?不。
  • 语言模型会推理吗?会。
  • 语言模型系统会像人类一样持续学习吗?不。
  • 语言模型系统会持续学习吗?当然会。

Dwarkesh 说:“很难从大语言模型那里获得像普通人一样的劳动输出。” 这是因为我们还处在技术发展的黎明时分。

人类的工作需要海量的背景知识和极快的反应速度,而这正是我们正通过语言模型逐步解锁的能力。更重要的是,我们的目标或许本就不是替代人力,而是增强人力。

把大语言模型当作人类即插即用的替代品,既不是通用人工智能的必要条件,也不是技术发展的根本瓶颈。

正如弗朗索瓦·肖莱在一次活动中巧妙地向 Dwarkesh 指出的那样:“适应新任务的能力和即时学习的能力,你要如何区分?在我听来,这不就是一回事吗?”

语言模型已经能飞快地领会微妙的语境。就我个人体验,ChatGPT 的记忆功能已经今非昔比。

等到未来18个月内更强大的模型问世,这种能力将近乎魔法。即使我们不主动提供,模型也极其擅长推断上下文。

很快,我们就能通过输入海量的、明确的上下文,彻底激活这个强大的关联引擎。

我还没见过有谁把工作中的所有相关信息都彻底数字化,并整理成大语言模型易于读取的格式。

据 GPT-5 Pro 估算,我博客上所有的文章加起来也只有50万个 tokens,完全可以塞进一个现有的模型里,但我从未试过。

Dwarkesh 遇到的困境,源于我们仍主要以单次生成的模式在使用大语言模型。

尽管推理模型的出现极大地改善了这一点,但在复杂的知识领域里,要想发挥出真正的经济价值,就需要一种深度研究式的应用模式——让模型全面掌握你近期的所有工作交互。

目前,没人给模型提供这种级别的上下文,我们手头的工具也无法有效积累这些信息。

但我相信,变革很快就会到来。ChatGPT、Claude 等产品都在全面引入跨会话的记忆功能和各类数据连接器。

这些全模态的记忆功能,将是释放 Dwarkesh 所期待价值的关键。没有它们,现在的语言模型在持续学习上确实毫无希望。

我猜想,传闻中每月2000美元的 ChatGPT 订阅服务,就是要解决这类问题。

每个定制任务都需要消化海量的上下文和推理 tokens,才能给出基本正确的输出。

如果有人能为我的博客做一个类似 Claude Code 的工具,分析每篇文章的主题和数据表现,我相信 AI 能轻易地为我的内容创作提供极具价值的建议。

因此,Dwarkesh 所说的持续学习,本质上是一个系统问题,而非学习算法问题。

我预计到2026年,我们会拥有更好的信息与上下文管理系统。到2027年,AI 公司将懂得如何最高效地利用这些信息,实现那种如同快速适应般的在上下文学习。

2025年发布的模型将让这一切变得触手可及。推理模型极大地增强了在上下文学习的能力,让 AI 在 ARC-AGI 这类复杂的未知领域取得了飞速进步。

同时,模型的上下文窗口也迎来了巨大飞跃。Claude 和 Gemini 的上下文长度都超过了100万+ tokens,GPT-5 也达到了40万 tokens,并且还在稳步增长。

关键在于,评测显示这些增长是实打实的,模型能够智能地利用这些超长上下文。

借助强大的推理模型和智能的上下文检索,我们正在构建的系统,其表现将与持续学习别无二致。

这必然是多个大语言模型协同工作的结果,其运行模式将和我们今天还在使用的初代 ChatGPT 完全不同。

通往持续学习的道路,就是更多的上下文和更强的算力。这与当前人工智能的投资方向完全吻合。

这根本不是瓶颈,而是一个我们正在着手解决的产品问题。

当然,这种形式的持续学习,或许无法实现 AI 领袖们口中那种被称为超级智能的原始智能与完全自主。

要想训练模型胜任更艰巨的任务,比如原创性的生物学研究,就需要掌握从零开始学习的智能体行为。

这类任务不存在互联网规模的预训练数据。但我的观点是,并非所有需要持续学习的工作,都要求达到智能的极限。

我非常期待,能在我未来的 ChatGPT 6 联合编辑的帮助下,轻松愉快地写博客。

当然,这项即将到来的技术也伴随着挑战。当初读到 Dwarkesh 的文章时,我的第一反应不是思考技术的可行性,而是社会还没准备好。

在此,我必须重申我的警告:

人工智能的风险之所以更高,是因为它与我们互动的方式极其个人化。

作为一个日益强大的独立实体,我们需要在 AI 和人类之间设置一些绝缘体,增加一点点摩擦,从而更好地引导技术走向善的结果。

简而言之,当你自己就是环境的一部分时,千万不要轻易许愿一个端到端的强化学习系统。那是一条通往反乌托邦的捷径。

我们今天拥有的,已经是通用人工智能的一种形态。借助更好的上下文和记忆能力,它很快会变得更加强大。

大语言模型的产业化,正在各行各业为我们带来惊人的进步,并将轻松超越几十年来激励 AI 发展的许多人类智能的基本要素。

继模型学会推理之后,具备持续学习能力的系统即将到来。这才是大多数 AI 公司真正在做的事——无论他们对外如何宣传超级智能的宏大叙事。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
Q2营收冲高!游戏和AI投资双轮驱动,腾讯上半年营收净利润大增
告别「AI脑萎缩」!Claude Code像健身私教一样逼你学编程
Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
【AI加油站】第四十七部:复旦大学张奇老师《自然语言处理导论》(附下载)
苹果版小爱同学?苹果秘密打造“Charismatic”系统,或许智能家居管家设备格新时刻将近 | 区势·AI
最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位
GPT-8能治愈癌症?阿尔特曼最新万字采访,揭秘AI发展4大瓶颈
YannLeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号