谷歌奥赛夺牌AI「深度思考」正式开放！谷歌Deep Think技术细节首曝：并行思考+强化学习

资讯配图

如果你是谷歌 AI Ultra 的订阅用户，现在就能在 Gemini 应用里用上「DeepThink」功能了。

每天能用的提示词数量是固定的。在模型下拉菜单里选 2.5 Pro，再打开提示词输入栏的“Deep Think”开关就行。

谷歌把这次发布的版本叫做“青铜”版。它的特点是运行速度快，适合处理日常工作。

不过，它的性能比起“黄金”版还有差距。黄金版曾在 2025 年的国际数学奥林匹克竞赛中拿下 35/42 的高分。

想用上这个功能，需要订阅 AI Ultra 计划，新用户前三个月每月 124.99 美元，之后是每月 249.99 美元。

谷歌解释说，只有少数顶尖数学家能体验完整的黄金版模型，而我们普通用户拿到的是青铜版。

青铜版虽然也能通过内部同级别的奥赛测试，但为了保证响应速度够快，在推理深度上做了一些牺牲。

这种分阶段的发布策略，能让谷歌一边听取专业数学家对顶尖系统的反馈，一边让普通用户体验到能在日常接受的时间内给出回应的版本。

DeepThink 的技术基石，是 Gemini 的「并行思考」方法。模型会同时冒出很多个想法，然后在一段较长的推理时间里不断打磨优化。

再通过强化学习技术，引导它一步步做出更严谨的多步推理。

在 LiveCodeBench V6 和 Humanity’s Last Exam 这类基准测试中，它的表现远超 Gemini 2.5 Pro、GPT-4 和 Grok 4，优势达到两位数，尤其在编程、科学和高等数学方面。

订阅用户每天使用 DeepThink 的次数是有限的。每次运行时，它都能调用代码执行、谷歌搜索等工具，生成的答案也比标准模型更详尽。

谷歌还提到，未来几周会向受信任的外部测试者开放带工具和不带工具的 API 接口。

同时，模型的安全性也得到了提升，不过代价是，它拒绝回答一些无害问题的概率比 Pro 版更高了。

对企业和研究机构的负责人来说，青铜版的 DeepThink 功能，就像一个能提前一窥奥赛级推理能力的窗口。

它现在就已经可以用来辅助设计算法、分析科学文献，以及推动产品的迭代开发。

与此同时，黄金版的有限试点将为我们揭示，当时间不再是限制时，大规模数学推理的极限在哪里，也为未来超越现有消费级模型的高精度 AI 服务指明了方向。

如何获取：这个青铜版模型，目前只对谷歌最贵的个人 AI 计划，也就是 AI Ultra 的订阅用户开放。

该计划的正常月费是 249.99 美元，新用户有前三个月的优惠，每月 124.99 美元。

为什么 Gemini 的“深度思考”如此强大

Gemini 2.5 Deep Think 是在原有 Gemini 大语言模型基础上的重大升级，核心目标就是攻克复杂难题。

它引入了「并行思考」能力，让模型能同时驾驭多个想法，再加上强化学习，持续打磨自身的推理能力。

它特别擅长处理那些需要长时间、深度思考的任务，比如科学探索、破解数学难题、设计算法，或是完善代码和设计方案。

一些早期用户，像数学家米歇尔·范·加雷尔，已经用它来探索棘手的数学问题，并从中获得了新的证明思路。

DeepThink 的标志性特征就是并行思考。在一段延长的「思考时间」里，模型会同时生成许多条推理路径。

然后，它会把最可靠的几条路径融合起来，形成最终的答案。

谷歌还将这项技术与新颖的强化学习目标相结合，奖励那些逻辑连贯、结果正确的推理过程，而不是只看重单一步骤的流畅性，以此训练模型产出更可靠的解决方案。

它拥有 100 万令牌的超长上下文窗口，能一口气读完长篇论文、海量数据，甚至图像、音频和视频。

同时，它的输出长度可达 19.2 万令牌，足够生成非常详尽的证明过程或大段的代码。

其底层采用的是稀疏混合专家 Transformer 架构。这意味着，每个令牌只会激活最相关的“专家”部分来处理，巧妙地把模型总参数大小和单次计算成本分离开来。

谷歌使用了由 Pathways 系统调度的 TPU 集群来训练 DeepThink 模型。

这套系统为处理超长上下文和大规模专家模型，提供了必需的高带宽内存和并行计算能力。

更长的推理时间给了模型更深的思考空间，但这也会拖慢响应速度。因此，“青铜”版对思考时间做了限制，以此在强大性能和用户体验之间取得平衡。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！