Nous Research新研究:揭示「Token效率」陷阱,开源大模型Token消耗最高超闭源10倍

智能情报所 2025-08-17 11:58

资讯配图

一份来自 Nous Research 的新报告指出,那些看似廉价的开源权重模型,实际每次查询的成本可能更高。

因为它们比顶级的闭源模型要多消耗 1.5 到 4 倍的 Token,在简单问题上甚至会多消耗近 10 倍。

许多团队选择开源模型,是看中其更低的单位 Token 价格。但研究表明,这种优势很容易被额外的 Token 消耗所吞噬。

重新定义效率

这项研究提出了一个核心概念:Token 效率。它衡量的是模型处理不同难度的任务时,究竟输出了多少 Token。

研究者并没依赖模型内部隐藏的思维链日志,而是直接把最终计费的完成 Token 数量,作为衡量推理成本的核心指标。

这种方法非常巧妙,因为它能公平地比较所有模型,即便是那些会压缩内部推理过程的闭源模型也不例外。

为何这对你的成本至关重要

评估一个模型,只看准确率和单位 Token 价格是远远不够的。

如果一个模型单价便宜,却总在大声思考,输出冗长的推理过程,你的账单依然会飞涨。

研究发现,闭源模型通常用更少的 Token 就能给出相同答案,因此尽管标价更贵,按次查询的成本反而更低。

当研究者将 Token 效率纳入总成本计算后,原先的成本高低排名瞬间发生了反转。

如何测量模型的思考方式

闭源模型常常隐藏其原始的思维链。研究团队通过分析输出字符数与计费 Token 数的关系,来判断模型是在压缩推理还是在逐字输出。

他们发现不同服务商的数据斜率各不相同,这表明有的模型在总结推理,有的则在完整展示。

但无论如何,最终计费都依据完成 Token 数量,这使得该指标成为一个公平的跨平台比较基准。

知识问答:最大的浪费源头

对于“澳大利亚的首都是哪里”这类简单问题,许多模型在回答前会消耗数百个 Token,这完全是无效开销。

这种浪费在某些开源模型上尤其严重,其消耗量中位数可达参考闭源模型的 4 倍,少数甚至接近 10 倍。

这恰恰是企业级问答应用中的主流场景,因此对预算的影响立竿见影。

数学与逻辑:效率差距缩小

在数学问题上,差距有所缩小。OpenAI 的 o4-mini 系列展现出极高的 Token 效率,消耗量比许多商业竞品少约 3 倍。

其新发布的开源模型 gpt-oss-120b 也表现类似,暗示了其可能沿用了相同的推理致密化技巧。

在非 OpenAI 的开源模型中,英伟达的 llama-3.3-nemotron-super-49b-v1 在各领域中效率最高。

当下,谁是真正的效率之王

以 OpenAI 和 xAI 的 grok-4 为代表的闭源领导者,在各类任务上都倾向于使用更少的 Token。

开源阵营中,llama-3.3-nemotron-super-49b-v1 是最节省 Token 的模型。

而新发布的 gpt-oss 系列则颠覆了认知:它既开源,又保持了极高效率,还开放了其他模型所隐藏的推理路径。

OpenAI 也已确认 gpt-oss-120b 和 gpt-oss-20b 是思维链可访问的混合专家模型,这与研究观察相符。

这对你的最终账单意味着什么

将 Token 效率纳入考量后,模型的总使用成本排名会彻底改变。

对于简单的事实问答,闭源模型直截了当,成本更低;而一些开源模型则因过度思考导致开销剧增。

对于需要复杂推理的数学和逻辑问题,成本差距缩小,部分优秀的开源模型开始显现竞争力。

实践建议很简单:用高效模型处理常规任务,用重推理模型攻克真正难题

研究揭示的优化秘诀

通过对比思维链,研究者发现 OpenAI 的高效模型普遍使用简化的内部语言、极简的格式和更短的推理路径。

这就是「致密化思维链」的实际体现。它在不牺牲简单任务准确率的前提下,显著降低了 Token 消耗。

论文指出,这种方式还能为长任务保留更多宝贵的上下文窗口。

行业格局的微妙转变

从发展趋势看,闭源厂商在持续迭代优化,不断降低 Token 消耗。

而许多开源模型为了在基准测试中追求高分,新版本反而消耗更多 Token。

gpt-oss 的出现打破了这一模式,它为整个开源社区树立了高效推理的新标杆。

资讯配图

给生产环境实践者的建议

请将 Token 效率提升到与准确率同等重要的一级指标。

在评估模型时,不仅要看平均值,更要关注消耗分布的异常值,因为它直接影响预算和系统延迟。

构建应用时,优先选择推理路径紧凑的模型,并将简单与困难的任务路由给不同效率的模型。

若想复现此研究,团队已在 GitHub 上公开了完整的数据集与测试框架。

参考资料:https://nousresearch.com/measuring-thinking-efficiency-in-reasoning-models-the-missing-benchmark/

https://github.com/cpldcpu/LRMTokenEconomy/


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR 开源
more
Tape-out生死时速:华大九天Argus重塑大规模SoC芯片物理验证效率!
【下午14:00直播】告别繁琐 自动剥压——魏德米勒麒麟系列Smart Crimper剥压机来袭
ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
【央视AI盛典】姚期智、Gillian Hadfield 、Stuart Russell、周伯文:解码时刻-AI人才培养
“汽车奢侈品的奥斯卡” —— 2025 Monterey Car Week 终极指南
SIGGRAPH 上的 NVIDIA Research 特别演讲及其它精彩活动
具身感知TexLiDAR:全景激光雷达数据的自动文本理解
道奇Charger Scat Pack SIXPACK官图 —— 新能源时代硬秀肌肉 6缸怪兽
反击AI论文!arXiv每年拒掉2%造假内容,自动化工具加入审核
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号