一份来自 Nous Research 的新报告指出,那些看似廉价的开源权重模型,实际每次查询的成本可能更高。
因为它们比顶级的闭源模型要多消耗 1.5 到 4 倍的 Token,在简单问题上甚至会多消耗近 10 倍。
许多团队选择开源模型,是看中其更低的单位 Token 价格。但研究表明,这种优势很容易被额外的 Token 消耗所吞噬。
重新定义效率
这项研究提出了一个核心概念:Token 效率。它衡量的是模型处理不同难度的任务时,究竟输出了多少 Token。
研究者并没依赖模型内部隐藏的思维链日志,而是直接把最终计费的完成 Token 数量,作为衡量推理成本的核心指标。
这种方法非常巧妙,因为它能公平地比较所有模型,即便是那些会压缩内部推理过程的闭源模型也不例外。
为何这对你的成本至关重要
评估一个模型,只看准确率和单位 Token 价格是远远不够的。
如果一个模型单价便宜,却总在大声思考,输出冗长的推理过程,你的账单依然会飞涨。
研究发现,闭源模型通常用更少的 Token 就能给出相同答案,因此尽管标价更贵,按次查询的成本反而更低。
当研究者将 Token 效率纳入总成本计算后,原先的成本高低排名瞬间发生了反转。
如何测量模型的思考方式
闭源模型常常隐藏其原始的思维链。研究团队通过分析输出字符数与计费 Token 数的关系,来判断模型是在压缩推理还是在逐字输出。
他们发现不同服务商的数据斜率各不相同,这表明有的模型在总结推理,有的则在完整展示。
但无论如何,最终计费都依据完成 Token 数量,这使得该指标成为一个公平的跨平台比较基准。
知识问答:最大的浪费源头
对于“澳大利亚的首都是哪里”这类简单问题,许多模型在回答前会消耗数百个 Token,这完全是无效开销。
这种浪费在某些开源模型上尤其严重,其消耗量中位数可达参考闭源模型的 4 倍,少数甚至接近 10 倍。
这恰恰是企业级问答应用中的主流场景,因此对预算的影响立竿见影。
数学与逻辑:效率差距缩小
在数学问题上,差距有所缩小。OpenAI 的 o4-mini
系列展现出极高的 Token 效率,消耗量比许多商业竞品少约 3 倍。
其新发布的开源模型 gpt-oss-120b
也表现类似,暗示了其可能沿用了相同的推理致密化技巧。
在非 OpenAI 的开源模型中,英伟达的 llama-3.3-nemotron-super-49b-v1
在各领域中效率最高。
当下,谁是真正的效率之王
以 OpenAI 和 xAI 的 grok-4
为代表的闭源领导者,在各类任务上都倾向于使用更少的 Token。
开源阵营中,llama-3.3-nemotron-super-49b-v1
是最节省 Token 的模型。
而新发布的 gpt-oss
系列则颠覆了认知:它既开源,又保持了极高效率,还开放了其他模型所隐藏的推理路径。
OpenAI 也已确认 gpt-oss-120b
和 gpt-oss-20b
是思维链可访问的混合专家模型,这与研究观察相符。
这对你的最终账单意味着什么
将 Token 效率纳入考量后,模型的总使用成本排名会彻底改变。
对于简单的事实问答,闭源模型直截了当,成本更低;而一些开源模型则因过度思考导致开销剧增。
对于需要复杂推理的数学和逻辑问题,成本差距缩小,部分优秀的开源模型开始显现竞争力。
实践建议很简单:用高效模型处理常规任务,用重推理模型攻克真正难题。
研究揭示的优化秘诀
通过对比思维链,研究者发现 OpenAI 的高效模型普遍使用简化的内部语言、极简的格式和更短的推理路径。
这就是「致密化思维链」的实际体现。它在不牺牲简单任务准确率的前提下,显著降低了 Token 消耗。
论文指出,这种方式还能为长任务保留更多宝贵的上下文窗口。
行业格局的微妙转变
从发展趋势看,闭源厂商在持续迭代优化,不断降低 Token 消耗。
而许多开源模型为了在基准测试中追求高分,新版本反而消耗更多 Token。
gpt-oss
的出现打破了这一模式,它为整个开源社区树立了高效推理的新标杆。
给生产环境实践者的建议
请将 Token 效率提升到与准确率同等重要的一级指标。
在评估模型时,不仅要看平均值,更要关注消耗分布的异常值,因为它直接影响预算和系统延迟。
构建应用时,优先选择推理路径紧凑的模型,并将简单与困难的任务路由给不同效率的模型。
若想复现此研究,团队已在 GitHub 上公开了完整的数据集与测试框架。
参考资料:https://nousresearch.com/measuring-thinking-efficiency-in-reasoning-models-the-missing-benchmark/
https://github.com/cpldcpu/LRMTokenEconomy/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!