刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想

机器之心 2025-08-02 08:55
机器之心报道

编辑:泽南、杨文

网友:Deep Think 简直太疯狂了。


本周五,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,并将全版本的 Gemini 2.5 Deep Think 模型(用于 IMO 竞赛)提供给部分数学家使用。


资讯配图


新版本融合了一系列早期测试人员的反馈和研究突破,比今年 I/O 大会上首次发布的版本有了显著改进。


谷歌表示,2.5 Deep Think 是最近在今年国际数学奥林匹克(IMO)比赛中获得金牌的模型的变体。虽然该模型需要数小时才能推理复杂的数学问题,但今天发布的版本速度更快,日常使用体验也更佳,根据内部评估,其在 2025 年 IMO 基准测试中仍能达到铜牌级的性能。


Google DeepMind 表示,Gemini 2.5 Deep Think 对于正在解决难题的研究人员、科学家和学者很有用。它不仅能回答问题,还能运用并行思维和强化学习技术进行头脑风暴。


谷歌展示了一名数学家 Michel van Garrel 使用深度思考能力证明猜想的经历。



现在, Google AI Ultra 订阅用户可以在 Gemini 应用中使用 Deep Think,只需在模型下拉菜单中选择 2.5 Pro,并在提示栏中切换「Deep Think」即可使用。Deep Think 会自动与代码执行、 Google 搜索等工具配合使用,并且可以生成更长的响应。


已经有很多网友第一时间进行了测试,看看他们实现的效果。设计一个小游戏:


资讯配图


赛博朋克核反应堆控制界面:


资讯配图


测试过的人表示,使用次数限制似乎是 5 条 / 24 小时。

 

1X 机器人的 Eric Jang 表示,看起来我们距离一个能证明简单猜想,做出新数学发现的 AI 模型只有不到 12 个月时间了,距离大语言模型的「初步」自我完善还有不到 24 个月的时间。


资讯配图


谷歌还计划在未来几周内通过 Gemini API 向受信任的测试者发布带工具和不带工具的 Deep Think,以便更好地了解其在开发者和企业用例中的可用性。


延长 Gemini 的并行「思考时间」


就像人们通过探索不同的角度、权衡潜在的解决方案并完善最终答案来解决复杂问题一样,Deep Think 通过使用并行思维技术推动了思维能力的边界。这种方法让 Gemini 能够同时生成多个想法并同时考虑它们,甚至可以随着时间的推移修订或结合不同的想法,最终得出最佳答案。


此外,通过延长推理时间或「思考时间」,谷歌为 Gemini 提供了更多的时间来探索不同的假设,进而为复杂问题找到创造性的解决方案。


谷歌还开发了新颖的强化学习技术,鼓励模型利用这些延长的推理路径,使 Deep Think 能随着时间的推移成为一个更好的、更直观的解决问题者。


最先进的性能


Deep Think 能够帮助人们解决需要创造力、战略规划和逐步改进的难题,例如:



资讯配图

Deep Think 在 Gemini 应用中使用并行思维技术,提供更详细、创造性和深思熟虑的回应。



此外,Gemini 2.5 Deep Think 在多个基准测试中取得了优秀成绩,分别在 HLE(34.8%,无外部工具使用)、Live Code Bench V6(87.6%)、IMO2025(60.7%)和 AIME 2025(99.2%)中表现突出,展现了其在复杂问题解决、编程和数学领域的强大推理能力。


资讯配图

Gemini 2.5 Deep Think Model Card:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf


谷歌表示,在 Gemini 的整个训练和部署阶段着重提升了安全性。测试中,Gemini 2.5 Deep Think 的内容安全性和语气客观性相比 Gemini 2.5 Pro 有所提升,但拒绝良性请求的倾向有所增强。随着 Gemini 问题解决能力的提升,谷歌正在评估相关风险并实施安全缓解措施,确保其高级功能的安全性。


参考链接:

https://blog.google/products/gemini/gemini-2-5-deep-think/


资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
EMI
more
LLM开源模型大串讲:Gemini 2.5、Voxtral、Magistral、MiMo、Seed等
细看Intel EMIB封装技术:它会成为AI芯片的未来吗?
120×180mm怪兽封装!EMIB-T让AI芯片起飞
重构创新|SEMI-e深圳国际半导体展暨2025集成电路产业创新展今年大不同
刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想
MIRIX重塑AI多模态长期记忆:超Gemini 410%,节省99.9%内存,APP同步上线
AIR 科研|超越GeminiDiffusion,每秒推理速度2000+tokens,Seed Diffusion发布
【技术博客】掌握 PCB 设计中的 EMI 控制之如何为 EMC 设计选择叠层结构
【精选资料】电源设计及EMI精解&电机设计资料分享
0801早报:通义千问发布新一代推理模型,超越Gemini 2.5|Ollama推出桌面客户端
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号