Nous Research新研究：揭示「Token效率」陷阱，开源大模型Token消耗最高超闭源10倍

资讯配图

一份来自 Nous Research 的新报告指出，那些看似廉价的开源权重模型，实际每次查询的成本可能更高。

因为它们比顶级的闭源模型要多消耗 1.5 到 4 倍的 Token，在简单问题上甚至会多消耗近 10 倍。

许多团队选择开源模型，是看中其更低的单位 Token 价格。但研究表明，这种优势很容易被额外的 Token 消耗所吞噬。

重新定义效率

这项研究提出了一个核心概念：Token 效率。它衡量的是模型处理不同难度的任务时，究竟输出了多少 Token。

研究者并没依赖模型内部隐藏的思维链日志，而是直接把最终计费的完成 Token 数量，作为衡量推理成本的核心指标。

这种方法非常巧妙，因为它能公平地比较所有模型，即便是那些会压缩内部推理过程的闭源模型也不例外。

为何这对你的成本至关重要

评估一个模型，只看准确率和单位 Token 价格是远远不够的。

如果一个模型单价便宜，却总在大声思考，输出冗长的推理过程，你的账单依然会飞涨。

研究发现，闭源模型通常用更少的 Token 就能给出相同答案，因此尽管标价更贵，按次查询的成本反而更低。

当研究者将 Token 效率纳入总成本计算后，原先的成本高低排名瞬间发生了反转。

如何测量模型的思考方式

闭源模型常常隐藏其原始的思维链。研究团队通过分析输出字符数与计费 Token 数的关系，来判断模型是在压缩推理还是在逐字输出。

他们发现不同服务商的数据斜率各不相同，这表明有的模型在总结推理，有的则在完整展示。

但无论如何，最终计费都依据完成 Token 数量，这使得该指标成为一个公平的跨平台比较基准。

知识问答：最大的浪费源头

对于“澳大利亚的首都是哪里”这类简单问题，许多模型在回答前会消耗数百个 Token，这完全是无效开销。

这种浪费在某些开源模型上尤其严重，其消耗量中位数可达参考闭源模型的 4 倍，少数甚至接近 10 倍。

这恰恰是企业级问答应用中的主流场景，因此对预算的影响立竿见影。

数学与逻辑：效率差距缩小

在数学问题上，差距有所缩小。OpenAI 的 o4-mini 系列展现出极高的 Token 效率，消耗量比许多商业竞品少约 3 倍。

其新发布的开源模型 gpt-oss-120b 也表现类似，暗示了其可能沿用了相同的推理致密化技巧。

在非 OpenAI 的开源模型中，英伟达的 llama-3.3-nemotron-super-49b-v1 在各领域中效率最高。

当下，谁是真正的效率之王

以 OpenAI 和 xAI 的 grok-4 为代表的闭源领导者，在各类任务上都倾向于使用更少的 Token。

开源阵营中，llama-3.3-nemotron-super-49b-v1 是最节省 Token 的模型。

而新发布的 gpt-oss 系列则颠覆了认知：它既开源，又保持了极高效率，还开放了其他模型所隐藏的推理路径。

OpenAI 也已确认 gpt-oss-120b 和 gpt-oss-20b 是思维链可访问的混合专家模型，这与研究观察相符。

这对你的最终账单意味着什么

将 Token 效率纳入考量后，模型的总使用成本排名会彻底改变。

对于简单的事实问答，闭源模型直截了当，成本更低；而一些开源模型则因过度思考导致开销剧增。

对于需要复杂推理的数学和逻辑问题，成本差距缩小，部分优秀的开源模型开始显现竞争力。

实践建议很简单：用高效模型处理常规任务，用重推理模型攻克真正难题。

研究揭示的优化秘诀

通过对比思维链，研究者发现 OpenAI 的高效模型普遍使用简化的内部语言、极简的格式和更短的推理路径。

这就是「致密化思维链」的实际体现。它在不牺牲简单任务准确率的前提下，显著降低了 Token 消耗。

论文指出，这种方式还能为长任务保留更多宝贵的上下文窗口。

行业格局的微妙转变

从发展趋势看，闭源厂商在持续迭代优化，不断降低 Token 消耗。

而许多开源模型为了在基准测试中追求高分，新版本反而消耗更多 Token。

gpt-oss 的出现打破了这一模式，它为整个开源社区树立了高效推理的新标杆。

资讯配图

给生产环境实践者的建议

请将 Token 效率提升到与准确率同等重要的一级指标。

在评估模型时，不仅要看平均值，更要关注消耗分布的异常值，因为它直接影响预算和系统延迟。

构建应用时，优先选择推理路径紧凑的模型，并将简单与困难的任务路由给不同效率的模型。

若想复现此研究，团队已在 GitHub 上公开了完整的数据集与测试框架。

参考资料：https://nousresearch.com/measuring-thinking-efficiency-in-reasoning-models-the-missing-benchmark/

https://github.com/cpldcpu/LRMTokenEconomy/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！