大众智能：从GPT-5到纳米香蕉，强大的人工智能正走向每一个人

作者：伊桑·莫利克

日期：2025年8月29日

超过十亿人正日常性地使用着 AI 聊天机器人。ChatGPT 每周的活跃用户超过七亿，再加上 Gemini 和其他顶尖 AI，这个数字又增加了数亿。

在我以往的文章里，我常常聚焦于 AI 技术的突破，比如最近 OpenAI 和谷歌的 AI 就双双斩获了 IMO 的金牌。

然而，这些成就的耀眼光芒，其实掩盖了一个更宏大的时代趋势：我们正在迈入一个大众智能的时代，在这个时代里，获取强大的 AI 将像使用谷歌搜索一样简单。

直到不久前，绝大多数免费用户能接触到的，还只是那些老旧、小型、频繁出错的 AI 模型，难以胜任复杂的工作。

而那些最顶尖的模型，比如能够解决高难度问题且极少产生幻觉的推理器，则需要每月支付 20 到 200 美元不等的订阅费。

即便你愿意付费，也得知道该选哪个模型、怎么写提示词。但现在，这一切的底层经济逻辑和产品交互方式都在飞速改变，深刻地影响着我们每一个人的工作、学习和思考方式。

强大 AI 的普及：更普惠，更易得

过去，普通用户想用上强大的 AI，主要会遇到两个障碍。首先是选择的困惑。

很少有人知道该如何挑选 AI 模型。更少有人知道，在 ChatGPT 的菜单里选择 o3，就能用上顶级的推理器 AI；而选择看似数字更大的 4o，得到的能力却要逊色得多。

OpenAI 的数据显示，即使是付费用户，也只有不到 7% 的人会经常使用 o3 模型。这意味着，大部分高级玩家也错过了推理器的真正实力。

另一个障碍是高昂的成本。由于最好的模型运行成本极高，免费用户通常无法接触，或者只能在极大的限制下偶尔使用。

谷歌曾率先向免费用户开放了部分顶尖模型的访问权限。但 OpenAI 也坦言，在 GPT-5 推出前，他们的免费用户几乎没机会用上推理模型。

GPT-5 的推出，本意是为了同时解决这两个问题，这也是它初次亮相时显得混乱又复杂的部分原因。

GPT-5 其实是两个概念的集合。它既是一系列模型的家族总称，从较弱的 GPT-5 Nano 到强大的 GPT-5 Pro 不等；

同时，它也是一个智能路由器的名字。这个路由器负责判断你的问题该交给哪个模型处理，以及分配多少算力。

所以，当你和 GPT-5 对话时，你其实是在和一个调度中心沟通。它会自动决定，你的问题是用小而快的模型解决，还是需要动用更强大的推理器。

资讯配图

当你选择 ChatGPT 5 时，实际选择的是自动模式。它会在多个 ChatGPT 5 模型中为你挑选，其中有些是世界顶级的，有些则相对弱小。如果你是付费用户，处理简单聊天之外的任何问题，请直接选择 GPT-5 Thinking 。

不难看出，这种设计的初衷是想让更多人能用上强大的 AI：日常闲聊，就用轻量级模型；解决数学难题，就调用更慢但更强的 GPT-5 Thinking 模型。

这样既能节约成本，也能扩大顶尖 AI 的覆盖面。但发布过程出了一些问题，官方解释并不到位，路由器的早期表现也不尽人意。

结果就导致了不同用户使用 GPT-5，可能会得到质量天差地别的答案。即便如此，OpenAI 依然宣布取得了初步成功。

发布仅几天，使用过推理器的付费用户比例就从 7% 飙升至 24%，而用上最强模型的免费用户，也实现了从几乎为零到 7% 的突破。

这种变化的背后，是更智能的模型在运行效率上的惊人提升。下面这张图清晰地揭示了这一趋势，Y 轴代表 AI 能力，X 轴则是呈对数下降的成本。

资讯配图

GPT-4 刚推出时，处理一百万词元的成本高达 50 美元左右。而现在，使用能力远超初代 GPT-4 的 GPT-5 nano，成本仅为 14 美分。

“
研究生水平的谷歌防作弊问答测试 (GPQA) 包含一系列极难的多选题，用于检验高级知识水平。非专家在联网状态下正确率为 34%，而博士在自己的专业领域内，联网正确率可达 74-81%。每百万 token 的成本即模型使用费。（数据由我本人收集，如有疏漏，敬请见谅。）

效率的提升不仅体现在经济上，也体现在环境上。谷歌报告称，仅过去一年，其模型处理单个提示词的能效就提升了 33 倍。

到 2025 年，一个现代大语言模型处理标准提示词的边际能耗已经相当明确。根据多方测试和官方数据，这个数字大约是 0.0003 千瓦时。

这大致相当于观看 8-10 秒的 Netflix，或是 2008 年进行一次谷歌搜索的能耗。有趣的是，生成一张图片和处理一段文本的能耗似乎不相上下¹。

至于每个提示词的耗水量，目前还不太明朗。估算范围从几滴水到一小杯（0.25mL 到 5mL+）不等，这取决于如何定义用水，相关讨论可见低水耗论和高水耗论。

效率的全面提升，意味着即使 AI 日益强大，将它普惠给更多人也变得切实可行。服务新增用户的边际成本已趋近于零，从而催生了广告等更多商业模式。

过去需要花费数美元才能运行一次的提示词，现在免费用户也能轻松使用。这，就是十亿人能突然用上强大 AI 的根本原因——不是源于什么伟大的民主化运动，而是经济规律让这一切成为了可能。

强大 AI 的演进：更简单，更直观

仅仅让人们用得上强大的 AI 还不够，更要让他们能真正用起来，解决实际问题。

过去，用好 AI 是个技术活，需要掌握思维链等技巧来精心设计提示词，还得学习各种诀窍才能榨干 AI 的性能。

但在我们最近的系列实验中发现，这些技巧的重要性正在急剧下降。强大的 AI 模型越来越懂得你的言下之意，甚至能举一反三，超越你的期待。

顺便一提，不论是威胁还是讨好 AI，从平均效果来看，似乎都没什么用。

变得更便宜、更易用的，不只是文本模型。谷歌最近发布了一款代号为“纳米香蕉”的图像模型，其官方名称 Gemini 2.5 Flash Image Generator 则显得平淡无奇。

这款模型不仅性能卓越（尤其擅长编辑而非原创图片），而且成本极低，免费用户也能尽情使用。更重要的是，它能精准理解并执行通俗易懂的自然语言指令。

为了展示它的强大与便捷，我上传了一张经典的阿波罗11号宇航员登月照片（无版权），外加一张闪亮燕尾服的图片，然后给了它一个最简单的指令：

给左边的尼尔·阿姆斯特朗穿上这件燕尾服。

几秒钟后，我得到了这张图：

资讯配图

尽管在专家眼里可能还有瑕疵，但这效果已足够惊人。燕尾服的褶皱如此逼真，并且完美地融入了整个场景光影，翻领上的 NASA 徽章更是点睛之笔。

虽然 AI 图像编辑的随机性使其还不适用于许多专业场景，但对普通人而言，这无疑是一次巨大的飞跃——不仅是能力边界的拓展，更是创造门槛的消除。

我们还可以玩得更尽兴些：

现在生成一张新照片，照片里尼尔·阿姆斯特朗和巴兹·奥尔德林穿着同样的衣服，坐在现代飞机的座位上。尼尔很放松地向后靠着，吹着小号；巴兹看起来很紧张，拿着一个汉堡；他们中间的座位上，坐着一只正在用笔记本电脑的逼真水獭。

这张图信息量很大：它展现了 AI 惊人的生成能力（注意看人物的表情，以及它对巴兹戒指和尼尔翻领徽章的保留）；

它也展示了 AI 如何轻易地扭曲一个著名的历史瞬间；它更是一个警示，预示着当这类技术被滥用时，世界将会变得多么光怪陸離。

大众智能时代的怪诞与深思

当十亿人都手握强大的 AI 时，无数变革将同步上演。事实上，变革已在发生。

有人与 AI 模型发展出深刻的情感联结，有人则在 AI 的陪伴下走出了孤独。

AI 可能正导致一些人精神崩溃或行为失常，也正被用来诊断疑难杂症。

人们用它写悼词、创作经文、应付作业、启动新项目……无数意想不到的应用场景正在涌现。

随着 AI 系统能力的持续增强，这些应用，以及它们带来的利与弊，只会有增无减。

虽然谷歌的图像生成器设置了安全护栏和隐形水印来防止滥用，但我预见，在未来数月内，那些限制更少的开源模型，在质量上也将迅速追平“纳米香蕉”。

面对这一切，那些开发 AI 的公司，无论你是否相信他们的安全承诺，似乎也和我们一样感到措手不及。

当十亿人都能使用先进的 AI，我们就真正进入了所谓的大众智能时代。我们现存的每一个机构——学校、医院、法庭、公司、政府——都是为那个“智能既稀缺又昂贵”的世界所设计的。

现在，每一个职业、每一个机构、每一个社群，都必须重新思考，如何在一个智能极大丰富的世界里自处和发展。

我们该如何驾驭这十亿人使用 AI 所释放的巨大能量，同时管控随之而来的混乱？当任何人都能以假乱真时，我们该如何重建信任？当知识的获取空前普惠时，我们又该如何守护人类专业经验的独特价值？

这就是我们当下的处境。强大的 AI 已经便宜到可以免费，简单到无需教程，强大到可以在一系列智力任务上超越人类。

一场机遇与挑战的洪流，正席卷全球的教室、法庭和会议室。

大众智能时代，就是把一套前所未有的工具交到十亿人手中，然后观察他们会创造出什么。而我们，即将亲眼见证这一切的发生。

¹ 该能耗仅指回答一个标准提示词所需的能量，未包含训练模型的能耗。模型训练是一次性的，过程能耗极高。目前我们不清楚训练一个现代模型的具体能耗，但据估算，训练 GPT-4 耗电超过 50 万千瓦时，约等于一架波音 737 飞机飞行 18 小时的能耗。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！