如果你是谷歌 AI Ultra 的订阅用户,现在就能在 Gemini 应用里用上「DeepThink」功能了。
每天能用的提示词数量是固定的。在模型下拉菜单里选 2.5 Pro
,再打开提示词输入栏的“Deep Think”开关就行。
谷歌把这次发布的版本叫做“青铜”版。它的特点是运行速度快,适合处理日常工作。
不过,它的性能比起“黄金”版还有差距。黄金版曾在 2025 年的国际数学奥林匹克竞赛中拿下 35/42 的高分。
想用上这个功能,需要订阅 AI Ultra 计划,新用户前三个月每月 124.99 美元,之后是每月 249.99 美元。
谷歌解释说,只有少数顶尖数学家能体验完整的黄金版模型,而我们普通用户拿到的是青铜版。
青铜版虽然也能通过内部同级别的奥赛测试,但为了保证响应速度够快,在推理深度上做了一些牺牲。
这种分阶段的发布策略,能让谷歌一边听取专业数学家对顶尖系统的反馈,一边让普通用户体验到能在日常接受的时间内给出回应的版本。
DeepThink 的技术基石,是 Gemini 的「并行思考」方法。模型会同时冒出很多个想法,然后在一段较长的推理时间里不断打磨优化。
再通过强化学习技术,引导它一步步做出更严谨的多步推理。
在 LiveCodeBench V6
和 Humanity’s Last Exam
这类基准测试中,它的表现远超 Gemini 2.5 Pro
、GPT-4
和 Grok 4
,优势达到两位数,尤其在编程、科学和高等数学方面。
订阅用户每天使用 DeepThink 的次数是有限的。每次运行时,它都能调用代码执行、谷歌搜索等工具,生成的答案也比标准模型更详尽。
谷歌还提到,未来几周会向受信任的外部测试者开放带工具和不带工具的 API 接口。
同时,模型的安全性也得到了提升,不过代价是,它拒绝回答一些无害问题的概率比 Pro 版更高了。
对企业和研究机构的负责人来说,青铜版的 DeepThink 功能,就像一个能提前一窥奥赛级推理能力的窗口。
它现在就已经可以用来辅助设计算法、分析科学文献,以及推动产品的迭代开发。
与此同时,黄金版的有限试点将为我们揭示,当时间不再是限制时,大规模数学推理的极限在哪里,也为未来超越现有消费级模型的高精度 AI 服务指明了方向。
如何获取:这个青铜版模型,目前只对谷歌最贵的个人 AI 计划,也就是 AI Ultra 的订阅用户开放。
该计划的正常月费是 249.99 美元,新用户有前三个月的优惠,每月 124.99 美元。
为什么 Gemini 的“深度思考”如此强大
Gemini 2.5 Deep Think
是在原有 Gemini 大语言模型基础上的重大升级,核心目标就是攻克复杂难题。
它引入了「并行思考」能力,让模型能同时驾驭多个想法,再加上强化学习,持续打磨自身的推理能力。
它特别擅长处理那些需要长时间、深度思考的任务,比如科学探索、破解数学难题、设计算法,或是完善代码和设计方案。
一些早期用户,像数学家米歇尔·范·加雷尔,已经用它来探索棘手的数学问题,并从中获得了新的证明思路。
架构上的革新
DeepThink 的标志性特征就是并行思考。在一段延长的「思考时间」里,模型会同时生成许多条推理路径。
然后,它会把最可靠的几条路径融合起来,形成最终的答案。
谷歌还将这项技术与新颖的强化学习目标相结合,奖励那些逻辑连贯、结果正确的推理过程,而不是只看重单一步骤的流畅性,以此训练模型产出更可靠的解决方案。
它拥有 100 万令牌的超长上下文窗口,能一口气读完长篇论文、海量数据,甚至图像、音频和视频。
同时,它的输出长度可达 19.2 万令牌,足够生成非常详尽的证明过程或大段的代码。
其底层采用的是稀疏混合专家 Transformer 架构。这意味着,每个令牌只会激活最相关的“专家”部分来处理,巧妙地把模型总参数大小和单次计算成本分离开来。
训练方式与效率
谷歌使用了由 Pathways
系统调度的 TPU 集群来训练 DeepThink 模型。
这套系统为处理超长上下文和大规模专家模型,提供了必需的高带宽内存和并行计算能力。
更长的推理时间给了模型更深的思考空间,但这也会拖慢响应速度。因此,“青铜”版对思考时间做了限制,以此在强大性能和用户体验之间取得平衡。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!