对推理模型的一些反思
作者:NATHAN LAMBERT
日期:2025 年 9 月 22 日
如今最顶尖模型的弱点,早已和初代的 ChatGPT 截然不同。
我们看到它们速度不够快,担心它们有超人的说服力,也期望它们能更自主地运行。
这些都属于推理模型。它们早已克服了 ChatGPT 时代语言模型的种种初始缺陷,比如幻觉、信息完全过时、轻易认输,以及其他一些看起来像是依附在这项伟大新技术上的小毛病。
推理模型的三大基石
如今的推理模型,远比最初那些仅由独立模型权重和安全过滤器等轻量级架构组成的聊天机器人复杂得多。
它们建立在三大基本要素之上,这些要素在未来数年都将是核心:
思考:实现推理时扩展的推理轨迹。推理模型的思考过程,其形式与启发了思维链这一术语的人类思维,其实非常不同。
搜索:从专为模型设计的非参数知识库中,请求更具体信息的能力。这弥补了模型权重静态,而现实世界动态变化的鸿沟。
行动:模型操纵物理或数字世界的能力。从执行代码到未来的实体机器人,这让语言模型能真正接触现实,并克服其不确定性的核心。
这些可执行环境,绝大多数都将构建在为编码智能体设计的基础设施之上。
作为一种技术形态,推理语言模型的生命力,将远超催生了 ChatGPT 的那些静态模型。自 2024 年 9 月 OpenAI 发布 o1-preview 已过去一年多,用文字郑重记下这一转变至关重要。
早期那些得分惊人的推理模型曾饱受非议,被断言无法泛化,但这已被证明是完全错误的。
事实上,OpenAI 的 o3 模型只用了三到六个月就融合了这些基本要素!当然,整个人工智能行业花了更长时间才达成共识。
在搜索方面,最相似的跟进者是 xAI 的 Grok 4。而像 Claude 4 这样的前沿模型,则以更微妙的方式展现其推理模型的本质。
OpenAI 的 o3 和 xAI 的 Grok 4,就像一只决心无限期追逐目标、并在此过程消耗海量算力的猎犬。而 Claude 4 的手法则温和得多,搜索能力稍弱,但几乎总能更快返回答案。
通过精心设计,长推理轨迹和工具使用可以适配不同场景,从而为我们带来一系列各具特色的推理模型。

我今年夏天为下一代推理模型提出的分类法——推理的技能、避免过度思考的校准、选择解决方案的策略、以及分解问题的抽象能力——正是决定一个模型在新的智能体世界中功能强弱的关键特质。
这些变化的发生方式很容易被忽略。例如幻觉问题,它本是模型固有的随机推断特性和知识截止日期带来的明显弱点。
引入搜索后,如今的幻觉更多是因上下文缺失导致,而非凭空捏造。语言模型近乎完美地复制和引用内容,但在长上下文理解上仍有很大缺陷。
幻觉依然重要,但这已是故事的新篇章。对它的研究,也将根据模型是否具备推理能力而有所不同。
非推理模型因其高效和简洁,在人工智能经济中仍扮演着关键角色。某种意义上,它们也是推理模型的一部分,因为你总可以脱离工具使用其权重。
它们将被广泛用于支撑数字经济的底层。但与此同时,未来几年的前沿人工智能模型和系统,都将是集思考、搜索、行动于一体的推理模型。
开放与封闭的路径之争
在如何打造优秀模型上,我们的思维也需要一次重要转变。可以说,相比改进模型本身,提升其内嵌工具的质量,路径可能更直接,只需投入巨大的工程努力。
但这对于开源模型来说,却要困难得多。人工智能的建模工作本身,则大多是开放式的探索性研究。
闭源模型的好处是,能通过完整技术栈控制全部用户体验。
而开源模型的设计,则必须让任何人都能从 HuggingFace 下载权重,并用 VLLM 或 SGLang 这类开源库轻松部署,获得出色体验。
当涉及推理时使用的工具,这意味着开源模型可以有一个推荐的最佳配置,但要支持对新工具的灵活泛化,可能需要时间。
例如,OpenAI 训练和部署模型时可以只用一种搜索引擎。而我在 Ai2 训练时用一种,发布后模型却要面对一个充满竞争的搜索产品市场。
开源模型可能在某些领域受益,比如 MCP 这样的项目。这类模型天生就是为一个我们无法预知其所有用途的世界而开发的,这使得 MCP 库成为绝佳的测试平台。
当然,领先的人工智能实验室会做或已经开始做类似的事,但这在其内部的优先级排序会有所不同。
成本的迷思与未来的基石
关于推理模型的 token 经济学和相关成本,已经有很多讨论,但大多没有把工具的因素考虑进去。
有篇热门文章曾说模型只会越来越贵,特别强调推理模型消耗了更多 token。这其实是夸大了一个暂时现象。
当时服务成本确有千倍增长,但这只是因为在硬件未升级的情况下,整个行业集体开启了推理时扩展技术,属于一次性的阶段性上涨。
与此同时,我们触达的模型的参数规模几乎陷入停滞。这是因为扩大参数带来的质量提升收益递减,这也是为什么 OpenAI 曾说 GPT 4.5 不算前沿模型,Gemini 也从未发布其 Ultra 模型。
推理 token 数量的增长也面临同样瓶颈。虽然串行处理的收益在递减,但我们终于看到英伟达 Blackwell GPU 的大型集群开始上线。
随着行业开发出更高效的推理系统,模型成本正趋于平稳并有望下降。科技行业向来善于年复一年地让广泛使用的产品变得更便宜。
未来会增加的成本,将是那些由这些推理模型赋能的智能体,尤其是在并行推理的加持下,比如 Claude Code 的翻版或 OpenAI 传闻中的 Pro 产品。
我们需要一篇像 SemiAnalysis 那样的深度文章,来解释在使用工具时,标准的 token 经济学被扭曲得有多严重,以及工具是否会显著增加实现的变数。
人们过于关注长上下文大模型带来的更高 token 成本,这通过更好的 GPU 很容易解决。而其他成本,如搜索索引、或等待工具结果时的 GPU 空闲时间,却被忽略了。
审视一个现代推理模型时,我们很容易只关注那些赋予它名字的思考 token。但搜索和执行作为现代语言模型的基本要素,完全有资格成为现代人工智能的独立支柱。
这些人工智能系统对复杂推理栈质量的依赖,远胜于为获取最好的模型权重而进行的某次完美运行。
思考、搜索、行动之所以被一并归为推理模型,是因为推理时扩展这项技术创新,才真正让搜索和执行变得实用高效。
推理,才是将这三者确立为技术标准的关键转折点。
行业正处于为它们构建基础架构的早期,这体现为语言模型智能体的初步发展。该架构将确定性的计算和搜索,与我们因 ChatGPT 而爱上的概率模型之美、之强大、之灵活,完美结合。
这个推理模型层,正在成为支撑未来科技产业最伟大成功的基础设施。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!