DeepSeek V3.1-Terminus 正式发布:一个更懂工具、更纯粹的开源AI智能体

智能情报所 2025-09-23 13:11

DeepSeek 今天带着其最新的模型更新强势回归。

新发布的模型名为 DeepSeek-V3.1-Terminus,是约两个月前 V3.1 模型的迭代升级,核心目标是提升性能,并解决用户反馈的各类问题。

全面开放,即刻体验

目前,Terminus 模型已全面开放,用户可通过 Hugging Face、DeepSeek 官方应用、以及应用程序接口进行访问。

它也正被迅速集成到 AnyCoder 和 NovitaLabs 等第三方开源工具与平台中,生态系统正在快速扩展。

新版本最显著的进步体现在智能体工具使用上,无论在编码还是搜索整合信息的评测中,性能都实现了肉眼可见的增强。

同时,它也有效修正了上一代模型在英文回答中夹杂中文的瑕疵,让沟通更纯粹、更专业。

模型家族的演进之路

Terminus 的技术根基是 DeepSeek V3 模型家族,该家族最早亮相于 2024 年 12 月。

然而,仅一个月后,性能更为强悍的 DeepSeek R1 发布,尤其在编码、数学和多步推理任务上表现突出,迅速盖过了 V3 的风头。

R1 模型擅长逻辑、数学和结构化问题求解,但这也意味着更高的使用成本和更长的响应时间,它是典型的以速度换精度的代表。

相比之下,DeepSeek-V3 更像是一个任劳任怨的主力模型,为广泛的商业应用而生。

它高效、稳定,在写作、摘要、客户沟通、基础编码等多数领域都足够强大,并且成本更低、速度更快、适用性更广。

但当面对需要极高逻辑严谨性的深度推理任务时,它的精度就不及 R1。

2025 年 8 月,V3 家族的首次更新 DeepSeek V3.1 问世,其庞大的规模和彻底的开源策略立即引发了全球关注。

这个拥有 6850 亿参数的庞然大物,其性能足以媲美甚至超越美国的闭源商业模型,并且在友好的 MIT 许可证下完全开源,允许任何形式的商业使用。

此举被视为对闭源技术路线的一次有力挑战,也彰显了中国在前沿人工智能领域的崛起之势。

如今,DeepSeek V3.1-Terminus 在这条路上走得更远,它不仅是通用的主力,更融入了强大的推理能力,并且依旧坚持商业友好的开源路线。

源于用户,归于优化

Terminus 的升级,精准地回应了用户的两大核心关切:语言表达的纯粹性和智能体工具的实用性。

根据 DeepSeek 官方说明,旧模型偶尔出现的中英文混杂或输出乱码的问题,在 Terminus 版本中得到了系统性的解决。

同时,新版本也重点强化了 DeepSeek 自家的代码智能体与搜索智能体框架。

这两个框架能让底层的 Terminus 模型更专注于特定任务,无论是高效生成代码,还是精准地从网络世界整合信息。

数据背后的性能提升

性能的提升直观地反映在基准测试数据上,尤其是在智能体工具使用的相关评测中,Terminus 的进步清晰可见。

  • SimpleQA (96.8 vs. 93.4)
  • BrowseComp (38.5 vs. 30.0)
  • SWE Verified (68.4 vs. 66.0)
  • SWE-bench Multilingual (57.8 vs. 54.5)
  • Terminal-bench (36.7 vs. 31.3)
资讯配图

这些数据的增长,预示着模型在与外部工具和系统交互的真实应用场景中,将会有更可靠、更出色的表现。

在不依赖工具的纯粹推理任务上,结果则更为微妙。

模型在 GPQA-Diamond 和 Humanity’s Last Exam(HLE) 等测试中略有提升,但在其他项目上的变化几乎可以忽略不计。

一个有趣的现象是,在常用于衡量编程能力的 Codeforces 基准测试中,分数反而出现了微小的回落。

双模驱动:聊天与推理

DeepSeek-V3.1-Terminus 提供了两种截然不同的运行模式,以适应不同场景的需求。

deepseek-chat (聊天模式)

该模式为常规交互设计,支持函数调用、代码填空和 JSON 输出等实用功能。

deepseek-reasoner (推理模式)

该模式则专注于深度上下文推理,不支持函数调用和代码填空,为复杂问题提供更强的思考能力。

两个版本都支持长达 128,000 令牌的上下文窗口,足以在一次交互中处理接近 400 页的文档内容。

值得注意的是,如果向推理模式发出的请求涉及工具使用,系统会自动将其转交给聊天模式处理,以确保任务顺利执行。

两种模式的最大输出长度也不同,推理模式支持高达 64,000 令牌的输出,是聊天模式的八倍。

清晰的 API 定价策略

在 API 定价方面,两种模式都基于令牌使用量,并引入了缓存命中与未命中的概念,以降低重复请求的成本。

  • 100 万输入令牌(缓存命中):$0.07
  • 100 万输入令牌(缓存未命中):$0.56
  • 100 万输出令牌:$1.68

总费用由输入和输出令牌量决定。若账户内同时有充值和赠送余额,系统将优先消耗赠送余额。

商业考量与技术细节

由于模型本身是开源的,企业完全可以从 Hugging Face 下载并进行私有化部署,这能最大程度地消除对数据安全和隐私的顾虑。

只不过,在这种情况下,企业需要自行承担模型推理所需的主机或云服务成本。

对于希望自行部署的开发者,新模型的架构与 DeepSeek-V3.1 完全一致,官方仓库也已提供更新的演示代码以简化流程。

目前版本尚存一个技术细节有待完善:self_attn.o_proj 参数仍未完全适配 UE8M0 FP8 数据格式,官方表示将在未来版本中修复。

DeepSeek 的未来图景

DeepSeek-V3.1-Terminus 的发布,是 DeepSeek 坚持聆听社区声音、快速迭代产品理念的又一次证明。

尽管多数改进属于渐进式优化,但智能体性能的提升和功能的丰富,无疑为广大开发者和研究者提供了更稳定、更强大的工具集成平台。

站在 V3.1 成功的基石上,DeepSeek 正不断挑战着技术与开源的边界。

凭借其开放的姿态和全球社区的持续关注,它已成为人工智能浪潮中一股不可忽视的差异化力量。

与此同时,关于 DeepSeek V4 正在研发的讨论已在社区中悄然兴起,而作为 R1 的继任者,传说中的 DeepSeek R2 也同样令人翘首以盼。

不过,也有声音认为,DeepSeek 持续聚焦于 V3 系列的迭代,或许侧面反映了其在训练更强模型时遇到了瓶颈——尽管,这次的更新本身已经足够亮眼。


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源
more
DeepSeek V3.1-Terminus 正式发布:一个更懂工具、更纯粹的开源AI智能体
TrajBooster:首个全身人行操作VLA方案,跨构型解决数据难题(代码全开源)
美团王兴,又开源一款大模型!
刚刚,稚晖君又开源了
智元机器人GO-1通用具身基座大模型全面开源!
阿里Qwen3-Omni开源发布,重新定义多模态,继GPT-4o之后,真正的全能AI来了?
【AI】王坚院士外滩演讲全文:AI时代,开源的内涵正在发生“革命性变化”!
深度解析宇树UnifoLM-WMA-0开源模型!
ICCV'25开源|FiVE-Bench:精细视频编辑新基准,揭示扩散与整流流模型实力
【源头活水】CVPR 2025 | 打破壁垒!多模态统一学习新范式来了,数据、模型、代码全开源
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号