DeepSeek 今天带着其最新的模型更新强势回归。
新发布的模型名为 DeepSeek-V3.1-Terminus
,是约两个月前 V3.1 模型的迭代升级,核心目标是提升性能,并解决用户反馈的各类问题。
全面开放,即刻体验
目前,Terminus 模型已全面开放,用户可通过 Hugging Face、DeepSeek 官方应用、以及应用程序接口进行访问。
它也正被迅速集成到 AnyCoder 和 NovitaLabs 等第三方开源工具与平台中,生态系统正在快速扩展。
新版本最显著的进步体现在智能体工具使用上,无论在编码还是搜索整合信息的评测中,性能都实现了肉眼可见的增强。
同时,它也有效修正了上一代模型在英文回答中夹杂中文的瑕疵,让沟通更纯粹、更专业。
模型家族的演进之路
Terminus 的技术根基是 DeepSeek V3 模型家族,该家族最早亮相于 2024 年 12 月。
然而,仅一个月后,性能更为强悍的 DeepSeek R1 发布,尤其在编码、数学和多步推理任务上表现突出,迅速盖过了 V3 的风头。
R1 模型擅长逻辑、数学和结构化问题求解,但这也意味着更高的使用成本和更长的响应时间,它是典型的以速度换精度的代表。
相比之下,DeepSeek-V3 更像是一个任劳任怨的主力模型,为广泛的商业应用而生。
它高效、稳定,在写作、摘要、客户沟通、基础编码等多数领域都足够强大,并且成本更低、速度更快、适用性更广。
但当面对需要极高逻辑严谨性的深度推理任务时,它的精度就不及 R1。
2025 年 8 月,V3 家族的首次更新 DeepSeek V3.1 问世,其庞大的规模和彻底的开源策略立即引发了全球关注。
这个拥有 6850 亿参数的庞然大物,其性能足以媲美甚至超越美国的闭源商业模型,并且在友好的 MIT 许可证下完全开源,允许任何形式的商业使用。
此举被视为对闭源技术路线的一次有力挑战,也彰显了中国在前沿人工智能领域的崛起之势。
如今,DeepSeek V3.1-Terminus
在这条路上走得更远,它不仅是通用的主力,更融入了强大的推理能力,并且依旧坚持商业友好的开源路线。
源于用户,归于优化
Terminus 的升级,精准地回应了用户的两大核心关切:语言表达的纯粹性和智能体工具的实用性。
根据 DeepSeek 官方说明,旧模型偶尔出现的中英文混杂或输出乱码的问题,在 Terminus 版本中得到了系统性的解决。
同时,新版本也重点强化了 DeepSeek 自家的代码智能体与搜索智能体框架。
这两个框架能让底层的 Terminus 模型更专注于特定任务,无论是高效生成代码,还是精准地从网络世界整合信息。
数据背后的性能提升
性能的提升直观地反映在基准测试数据上,尤其是在智能体工具使用的相关评测中,Terminus 的进步清晰可见。
SimpleQA (96.8 vs. 93.4) BrowseComp (38.5 vs. 30.0) SWE Verified (68.4 vs. 66.0) SWE-bench Multilingual (57.8 vs. 54.5) Terminal-bench (36.7 vs. 31.3)

这些数据的增长,预示着模型在与外部工具和系统交互的真实应用场景中,将会有更可靠、更出色的表现。
在不依赖工具的纯粹推理任务上,结果则更为微妙。
模型在 GPQA-Diamond 和 Humanity’s Last Exam(HLE) 等测试中略有提升,但在其他项目上的变化几乎可以忽略不计。
一个有趣的现象是,在常用于衡量编程能力的 Codeforces 基准测试中,分数反而出现了微小的回落。
双模驱动:聊天与推理
DeepSeek-V3.1-Terminus
提供了两种截然不同的运行模式,以适应不同场景的需求。
deepseek-chat
(聊天模式)
该模式为常规交互设计,支持函数调用、代码填空和 JSON 输出等实用功能。
deepseek-reasoner
(推理模式)
该模式则专注于深度上下文推理,不支持函数调用和代码填空,为复杂问题提供更强的思考能力。
两个版本都支持长达 128,000 令牌的上下文窗口,足以在一次交互中处理接近 400 页的文档内容。
值得注意的是,如果向推理模式发出的请求涉及工具使用,系统会自动将其转交给聊天模式处理,以确保任务顺利执行。
两种模式的最大输出长度也不同,推理模式支持高达 64,000 令牌的输出,是聊天模式的八倍。
清晰的 API 定价策略
在 API 定价方面,两种模式都基于令牌使用量,并引入了缓存命中与未命中的概念,以降低重复请求的成本。
100 万输入令牌(缓存命中):$0.07 100 万输入令牌(缓存未命中):$0.56 100 万输出令牌:$1.68
总费用由输入和输出令牌量决定。若账户内同时有充值和赠送余额,系统将优先消耗赠送余额。
商业考量与技术细节
由于模型本身是开源的,企业完全可以从 Hugging Face 下载并进行私有化部署,这能最大程度地消除对数据安全和隐私的顾虑。
只不过,在这种情况下,企业需要自行承担模型推理所需的主机或云服务成本。
对于希望自行部署的开发者,新模型的架构与 DeepSeek-V3.1 完全一致,官方仓库也已提供更新的演示代码以简化流程。
目前版本尚存一个技术细节有待完善:self_attn.o_proj
参数仍未完全适配 UE8M0 FP8 数据格式,官方表示将在未来版本中修复。
DeepSeek 的未来图景
DeepSeek-V3.1-Terminus 的发布,是 DeepSeek 坚持聆听社区声音、快速迭代产品理念的又一次证明。
尽管多数改进属于渐进式优化,但智能体性能的提升和功能的丰富,无疑为广大开发者和研究者提供了更稳定、更强大的工具集成平台。
站在 V3.1 成功的基石上,DeepSeek 正不断挑战着技术与开源的边界。
凭借其开放的姿态和全球社区的持续关注,它已成为人工智能浪潮中一股不可忽视的差异化力量。
与此同时,关于 DeepSeek V4 正在研发的讨论已在社区中悄然兴起,而作为 R1 的继任者,传说中的 DeepSeek R2 也同样令人翘首以盼。
不过,也有声音认为,DeepSeek 持续聚焦于 V3 系列的迭代,或许侧面反映了其在训练更强模型时遇到了瓶颈——尽管,这次的更新本身已经足够亮眼。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!