Token经济学|90%的开发者都搞错了,AI的胜负手不是模型大小,而是每Token智能,这篇文章讲透了AI的隐形成本

智能情报所 2025-08-04 17:25

编者按:在AI浪潮席卷一切的当下,我们往往只关注模型和算法的迭代。但决定未来商业格局的,或许是更底层的“Token经济学”——一个关乎成本、效率与智能的全新战场。耐心看完,经济效率的内容在文末。

Token 价格如何定义人工智能的格局

MATTHEW HARRIS

2025 年 8 月 2 日


人工智能的未来,不单单由天才算法或市场宣传决定。

它将被一种更基础、更不起眼,但从长远看却更具决定性的东西所塑造。这个东西就是 token

想看懂 AI 的发展方向,就必须理解 Token 经济学。

在一个按 token 付费的 AI 世界里,token 不再仅仅是输出的结果。它们是经济单位,是价格信号,更是公司与消费者博弈的战略武器。

我们从最基本的概念说起。AI 语境下的 “token”,不是加密货币,也不是证券。它就是一小段文本,通常只是一个词的片段

比如,“fantastic” 这个词,就可能被拆分成 “fan”、“tas”、“tic” 这几个 token。

AI 模型并非基于完整的句子或段落工作。它们是一个接一个地处理 token,就像一台机器在分块吞食数据

你输入的每个问题,收到的每个回答,处理的每份文档,解释的每段代码,全都被切分成了 token。

这些就是 AI 进行推理的原子单位,也是你使用任何商业模型时,最终需要付费购买的东西。

这就像你告诉别人电话号码,不会一口气说完,而是会说“508”—停顿—“264”—停顿—“7287”。

这种方式在心理学上叫“组块”,能让你的大脑工作记忆更轻松地处理信息。

大语言模型(LLM)做任何事,都依赖这个原理。

Token = 工作记忆的单位

当你给 LLM 一个指令时,你是在喂给它一串 token 流。模型会通过它的上下文窗口(也就是聊天界面),一次性处理这整个 token 流。这个窗口就像一块临时的精神记事本。

如果上下文窗口是 128K token,就好比给了模型一张巨大的草稿纸,让它在一次“思考”中能记住大量信息。

但一旦这次互动结束,这串 token 流就会被彻底抹去,没有任何信息会被默认保存下来。就像一块可以随时擦掉重画的神奇画板。

天生没有长期记忆

人类会通过复习、情感触动和睡眠等方式,把短期信息转化为长期记忆。

但大语言模型默认完全不会这么做。它们不会把与用户的互动经验刻进脑子,它们没有情感,也不需要睡觉。

除非开发者专门把过去的对话存起来,或者给模型一个固定的系统指令,又或者用历史数据对模型进行微调,否则每一次对话都是从零开始。

这就是为什么大语言模型换个聊天窗口就什么都忘了。它们并非真的忘记,而是压根就没记住过

这也是它们产生幻觉的原因

当模型没有持久记忆时,它就只能完全依赖当前对话窗口里你给它的信息。

如果你问它两周前聊过的事,它可能会编造一个听起来很合理、但其实是假的答案。

这就像让一个极度缺觉的人,回忆两周前的晚餐吃了什么一样,结果多半是瞎猜。

记忆层级开始出现

OpenAI 已经开始引入长期记忆系统。它的工作方式,就像在核心模型外面,加装了一个记忆脚手架。

像 GPT-4 这样的基础模型,其核心设计仍然是无状态的,它自己不会跨越会话记住任何事。

但 OpenAI 通过在应用层叠加检索、存储和用户建模系统,为它打造了记忆。

1. 持久化存储过往互动

启用记忆功能后,OpenAI 会把过去的互动,存储在一个结构化的数据库里,并按用户和相关性进行分类。

这不只是聊天记录,它更像一个为你量身打造的知识库或嵌入数据库。

特定的信息片段或摘要,会和时间戳、主题、相关标签等元数据一起被储存,这为模型建立“人生经历”式的记忆打下了基础。

2. 利用嵌入实现语义回忆

每个被存下来的记忆片段,都会被转化为数学向量(即嵌入)。

当你再次提问时,系统会同步在你的记忆库里进行搜索,找出最相关的记忆片段,然后一起提供给模型。

这就在不撑爆当前对话窗口的前提下,给了模型超越当下的上下文信息。

3. 摘要与记忆压缩

为了避免信息过载,OpenAI 不会记住你说的每一个字,而是会把过去的互动提炼成要点。

这是一种“语义压缩”。就像你只记得朋友喜欢爵士乐,但记不住他提到的每张专辑名。

同样,当你回忆往事时,你其实是在回忆“上一次回忆这件事”的场景,所以记忆才会像复印件的复印件一样,越来越模糊。

这让模型能像人一样,在更高的抽象层面去理解你:“你关心政治理论,用公众号写东西,还很讨厌用破折号。” 没错,我确实如此。感谢你记住了。

4. 用户建模与目标推断

最厉害的部分是行为建模。OpenAI 的记忆系统不仅是检索事实,它还在努力学习你的行为模式,比如:

  • 你的偏好
  • 你的目标
  • 你的语言风格
  • 你常用的工作流程

这就是为什么它的界面总感觉很懂你。不是模型本身像人一样拥有记忆,而是记忆层在幕后帮你优化了指令。用户模型越好,AI 表现就越聪明。

我的模型用一种简洁、严肃的方式与我沟通,没有多余的客套和表情。它直奔主题,做错了就根据我的反馈立刻修正。

它把我当成专家,而不是需要手把手教的菜鸟。它会优先保证清晰、精确和有深度的回答,而不是空泛的评论。

它会点出我思维的盲点和逻辑漏洞,严格遵守我的写作风格,从不道德说教。它把我当成一个追求真知灼见的思考者。

与此同时,我一位更感性的朋友说,她的模型总能认可她的情绪,并在她们互动时全神贯注地倾听。不同的人,不同的偏好。

她的模型更像一面“情绪镜子”。它会用共情的语言,对她的感受表达理解和支持,而不是反驳或挑战。

它把她的感受当作需要被肯定的数据,而不是需要被审视的数据。这与我的模型试图拓展我的认知边界完全不同,她的模型旨在拓展她的情感安全区。

5. 记忆更新需要人类参与

目前,记忆更新通常需要你确认,比如系统会问:“需要我记住这个吗?”

这是一个防止模型记错或侵犯隐私的安全护栏。这也和人类一样,我们会选择性地记住一些事。

6. 记忆是独立于模型的模块

这一点至关重要:记忆存在于模型的核心权重之外,它是模块化的

你可以把基础模型想象成大脑的本能部分(脑干),而记忆应用层则像是负责高级思维的额叶。

这种分离,让记忆可以针对每个用户、持续更新且保证安全。这也意味着 OpenAI 可以在不重新训练大模型的情况下,单独升级记忆系统。

现在,来聊聊真金白银

既然你已经了解了 token 是什么,以及它如何与 AI 的不同层面互动,那我们就该谈谈钱了。

绝大多数大语言模型 API 的商业模式非常简单:按 token 付费

你用的 token 越多,付的钱就越多。任务越复杂,通常需要的 token 也越多。

资讯配图

当模型变得更强大、更智能时,运行成本也水涨船高。这正是 Token 经济学发挥作用的地方。

企业必须更精细地决定,什么任务该用哪种模型。一个每天只回答几个问题的客服机器人,和一个需要解析大量法律文书的工具,对成本的考量天差地别。

在一个以 token 定价的世界里,成本不仅关乎使用量,更关乎模型架构、延迟速度、上下文窗口大小和 token 效率

最贵的模型不一定是最好的,最便宜的也往往不是最高效的。

DeepSeek R1 就是一个绝佳的例子。它刚推出时,输出价格比 OpenAI 的旗舰模型便宜了 90% 以上,震惊了市场,被视为“斯普特尼克时刻”。

但好景不长,尽管价格优势巨大,它的流量却急剧下滑。为什么?

因为用户不只为 token 付费,他们也为响应速度、可靠性和上下文的有效利用付费。

DeepSeek 为了追求低价,牺牲了速度,用户需要等好几秒才能得到回应。它还限制了上下文窗口,使其在编程或文档处理等任务上表现不佳。

与此同时,DeepSeek 的开源模型被其他厂商拿去部署,并优化了延迟和吞吐量,反而分流了它自己的用户。

这揭示了一个更深刻的真相:token 的单价并非静止不变,它是延迟、交互性和上下文这三者权衡的最终结果。

一个速度超快但 token 消耗量大的模型,其总成本可能和一个速度虽慢但回答极为精炼的模型相当。

比如,Anthropic 公司的 Claude 模型,在执行相同任务时,比其他模型简洁三倍。即使它纸面上的 token 单价更高,但最终算下来总成本反而有优势。

另一面是算力。没有芯片,就没有 token。而不同的芯片,提供 token 的成本也不同。

亚马逊凭借其自研的 Trainium 和 Inferentia 芯片,正迅速成为推理成本的领导者。

他们用自家的 Nova 模型搭配自家芯片,以纯正的亚马逊风格,提供不算顶尖但性价比最高的方案,这对大多数企业极具吸引力。

即便是 DeepSeek,它所依赖的混合专家模型(MOE)架构也有其局限。它通过大规模批处理来降低成本,却带来了巨大的延迟。

这种牺牲用户体验换取低价的策略,只有对成本极度敏感,或者自己有能力优化前端以忍受延迟的用户才能接受

这更像是一种内部研究的资源分配策略,颇具国家计划的风格——不太关心个体体验,更关心完成宏大目标。这本身没有对错,只是一个值得玩味的数据点。

未来已来

我们正在进入一个新时代:企业和个人都将开始精细化地使用 AI

高价值任务,用昂贵的顶尖模型。简单的总结工作,就用便宜的低配模型。

普通用户可能乐于每月花 20 美元订阅。而高级玩家则会混合使用不同模型:用 Claude 处理逻辑,用 GPT 搞创作,用 DeepSeek 追求吞吐量,或者用亚马逊的 Nova 追求性价比。

技术栈将出现分化:高性能任务,会被导向拥有最佳芯片和模型组合的顶级集群。

低复杂度任务,则会被打包到低成本方案上处理。随着能源和模型效率的提升,token 的成本将持续下降。

但如何选择,将变得愈发复杂。Token 经济学不仅影响你选择哪个模型,更决定了你如何设计产品和分配资源。

  • 如果你是用户,先搞清楚你到底需要什么。是快速回答,还是长篇创作?是严谨逻辑,还是多语言能力?根据你的需求去匹配模型,而不是追逐营销噱头。

  • 如果你是构建者,先从理解你的应用场景开始。是解析医疗文档,还是高频编码?选择一个功能足够强大,同时成本又足够高效的基础模型,然后为它匹配能提供最佳用户体验的芯片。

在这个世界里,token 就是生产力的基石

Token 效率不是锦上添花,它就是你的利润空间。

Token 成本不是预算项目,它就是你的设计约束。

最顶尖的构建者,会将 Token 经济学视为战略杠杆,而非一张价目表。

最聪明的用户,会停止追逐最酷炫的模型,转而选择最适合自己的那一个。

AI 的军备竞赛,已不再是比谁的模型更大。

比赛的核心在于,谁能用更少的资源,创造更多的智能。这关乎每个 token 的含金量,也关乎架构与经济、延迟与负载、芯片与任务的完美匹配。

总会有少数实验室去追逐那头名为“超级智能”的白色巨鲸。

但对我们其他人来说,一场截然不同的游戏,已经开始了。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
“老师居然是虚拟人?”电子科大的AI课堂,真的有点炸 | 数据猿专访
谷歌深夜放出 IMO 金牌模型,多项测试力压 Grok 4、OpenAI o3!网友评论两极分化
高德地图2025正式发布:全球首个基于地图的AI原生应用
今年 CJ,AI 成了游戏产业的「必答题」
大会发布 | 参赛曲目破2万 WAIC主题曲二创大赛火热进行中
剑指“美国版 DeepSeek!”Ai2 科学家 Nathan Lambert 最新访谈:剖析 RLVR、激辩智能体与后训练
AI虚拟细胞开启生物研究新范式
“开箱即用”的AI长什么样?我们在WAIC找到了样本|甲子光年
展商直击 | AI无界 智造未来——和利时闪耀WAIC 2025,全景展示AI赋能的智造未来
AI大潮下的具身和人形,中国在跟跑还是并跑?
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号