DeepSeek V3.1-Terminus 正式发布：一个更懂工具、更纯粹的开源AI智能体

DeepSeek 今天带着其最新的模型更新强势回归。

新发布的模型名为 DeepSeek-V3.1-Terminus，是约两个月前 V3.1 模型的迭代升级，核心目标是提升性能，并解决用户反馈的各类问题。

全面开放，即刻体验

目前，Terminus 模型已全面开放，用户可通过 Hugging Face、DeepSeek 官方应用、以及应用程序接口进行访问。

它也正被迅速集成到 AnyCoder 和 NovitaLabs 等第三方开源工具与平台中，生态系统正在快速扩展。

新版本最显著的进步体现在智能体工具使用上，无论在编码还是搜索整合信息的评测中，性能都实现了肉眼可见的增强。

同时，它也有效修正了上一代模型在英文回答中夹杂中文的瑕疵，让沟通更纯粹、更专业。

模型家族的演进之路

Terminus 的技术根基是 DeepSeek V3 模型家族，该家族最早亮相于 2024 年 12 月。

然而，仅一个月后，性能更为强悍的 DeepSeek R1 发布，尤其在编码、数学和多步推理任务上表现突出，迅速盖过了 V3 的风头。

R1 模型擅长逻辑、数学和结构化问题求解，但这也意味着更高的使用成本和更长的响应时间，它是典型的以速度换精度的代表。

相比之下，DeepSeek-V3 更像是一个任劳任怨的主力模型，为广泛的商业应用而生。

它高效、稳定，在写作、摘要、客户沟通、基础编码等多数领域都足够强大，并且成本更低、速度更快、适用性更广。

但当面对需要极高逻辑严谨性的深度推理任务时，它的精度就不及 R1。

2025 年 8 月，V3 家族的首次更新 DeepSeek V3.1 问世，其庞大的规模和彻底的开源策略立即引发了全球关注。

这个拥有 6850 亿参数的庞然大物，其性能足以媲美甚至超越美国的闭源商业模型，并且在友好的 MIT 许可证下完全开源，允许任何形式的商业使用。

此举被视为对闭源技术路线的一次有力挑战，也彰显了中国在前沿人工智能领域的崛起之势。

如今，DeepSeek V3.1-Terminus 在这条路上走得更远，它不仅是通用的主力，更融入了强大的推理能力，并且依旧坚持商业友好的开源路线。

源于用户，归于优化

Terminus 的升级，精准地回应了用户的两大核心关切：语言表达的纯粹性和智能体工具的实用性。

根据 DeepSeek 官方说明，旧模型偶尔出现的中英文混杂或输出乱码的问题，在 Terminus 版本中得到了系统性的解决。

同时，新版本也重点强化了 DeepSeek 自家的代码智能体与搜索智能体框架。

这两个框架能让底层的 Terminus 模型更专注于特定任务，无论是高效生成代码，还是精准地从网络世界整合信息。

数据背后的性能提升

性能的提升直观地反映在基准测试数据上，尤其是在智能体工具使用的相关评测中，Terminus 的进步清晰可见。

SimpleQA (96.8 vs. 93.4)
BrowseComp (38.5 vs. 30.0)
SWE Verified (68.4 vs. 66.0)
SWE-bench Multilingual (57.8 vs. 54.5)
Terminal-bench (36.7 vs. 31.3)

这些数据的增长，预示着模型在与外部工具和系统交互的真实应用场景中，将会有更可靠、更出色的表现。

在不依赖工具的纯粹推理任务上，结果则更为微妙。

模型在 GPQA-Diamond 和 Humanity’s Last Exam（HLE）等测试中略有提升，但在其他项目上的变化几乎可以忽略不计。

一个有趣的现象是，在常用于衡量编程能力的 Codeforces 基准测试中，分数反而出现了微小的回落。

双模驱动：聊天与推理

DeepSeek-V3.1-Terminus 提供了两种截然不同的运行模式，以适应不同场景的需求。

`deepseek-chat` (聊天模式)

该模式为常规交互设计，支持函数调用、代码填空和 JSON 输出等实用功能。

`deepseek-reasoner` (推理模式)

该模式则专注于深度上下文推理，不支持函数调用和代码填空，为复杂问题提供更强的思考能力。

两个版本都支持长达 128,000 令牌的上下文窗口，足以在一次交互中处理接近 400 页的文档内容。

值得注意的是，如果向推理模式发出的请求涉及工具使用，系统会自动将其转交给聊天模式处理，以确保任务顺利执行。

两种模式的最大输出长度也不同，推理模式支持高达 64,000 令牌的输出，是聊天模式的八倍。

清晰的 API 定价策略

在 API 定价方面，两种模式都基于令牌使用量，并引入了缓存命中与未命中的概念，以降低重复请求的成本。

100 万输入令牌（缓存命中）：$0.07
100 万输入令牌（缓存未命中）：$0.56
100 万输出令牌：$1.68

总费用由输入和输出令牌量决定。若账户内同时有充值和赠送余额，系统将优先消耗赠送余额。

商业考量与技术细节

由于模型本身是开源的，企业完全可以从 Hugging Face 下载并进行私有化部署，这能最大程度地消除对数据安全和隐私的顾虑。

只不过，在这种情况下，企业需要自行承担模型推理所需的主机或云服务成本。

对于希望自行部署的开发者，新模型的架构与 DeepSeek-V3.1 完全一致，官方仓库也已提供更新的演示代码以简化流程。

目前版本尚存一个技术细节有待完善：self_attn.o_proj 参数仍未完全适配 UE8M0 FP8 数据格式，官方表示将在未来版本中修复。

DeepSeek 的未来图景

DeepSeek-V3.1-Terminus 的发布，是 DeepSeek 坚持聆听社区声音、快速迭代产品理念的又一次证明。

尽管多数改进属于渐进式优化，但智能体性能的提升和功能的丰富，无疑为广大开发者和研究者提供了更稳定、更强大的工具集成平台。

站在 V3.1 成功的基石上，DeepSeek 正不断挑战着技术与开源的边界。

凭借其开放的姿态和全球社区的持续关注，它已成为人工智能浪潮中一股不可忽视的差异化力量。

与此同时，关于 DeepSeek V4 正在研发的讨论已在社区中悄然兴起，而作为 R1 的继任者，传说中的 DeepSeek R2 也同样令人翘首以盼。

不过，也有声音认为，DeepSeek 持续聚焦于 V3 系列的迭代，或许侧面反映了其在训练更强模型时遇到了瓶颈——尽管，这次的更新本身已经足够亮眼。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！