一文速览DeepSeek V3.1中4个关键更新+一些“鲜为人知”的细节，没有想象中那么好！

AI产品汇 2025-08-20 08:17

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

HF链接-https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base/tree/main

资讯配图

01-DeepSeek V3.1简介

资讯配图

DeepSeek-V3.1-Base有如下4个关键更新：

这是一个混合模型，具有可切换的思维模式，这种模式已经被Qwen所抛弃，或许DeepSeek找到了更好的解决方案？
添加了对搜索令牌的原生支持，这意味着更好的搜索功能。我特别检查了一下，R1没有这个令牌，所以它可能是一个新启用的用于原生搜索支持的令牌，而不是用于统一V3和R1的词汇表。社区报告称，除非明确提示不搜索，否则搜索触发率特别高。
编程能力可能特别强。根据Aider从社区测试的数据，它直接在开放权重模型中排名第一。
上下文长度没有改变；旧的DeepSeek-V3-Base也有128K。

02-DeepSeek V3.1关键信息

02.01-模型参数解析

资讯配图

通过观察官方提供的config.json文件，我们可以了解到该模型的一些关键参数。与DeepSeek V3-0324相比，该模型的参数并没有发生很大的改变。

02.02-模型架构解析

资讯配图

通过观察官方提供的模型权重，我们可以发现：与DeepSeek V3-0324相比，该模型的架构并没有发生很大的改变。

02.03-模型指标剖析

资讯配图

这是网友提供的一份与当前的一些主流模型的跑分结果，我们可以观察到：与其它模型相比，该模型的给选哪个指标在DeepSeek V3-0324版本的基础上有一定的提升，使用成本更低、平均耗时更低！

03-DeepSeek V3.1效果展示

03.01-情感理解能力

资讯配图

为了测试该模型的情感理解能力是否得到提升，某网友对其进行了测试。测试结果表明：该模型的情感能力并没有得到较大的其它，与其它SOTA模型想比，还具有一些差异。

03.02-物理理解能力

这是某网友基于DeepSeek-V3.1的一个测试样例，主要像看看该模型的物理理解能力，测试结果表明：该模型的物理理解能力有一定的提升。

04-DeepSeek V3.1总结

资讯配图

哈哈，坐等官方放出模型信息卡，公布更多的信息出来。以上大部分信息都是网友的观点，可能存在偏颇，大家了解了解就行。

关注我，AI热点早知道，AI算法早精通，AI产品早上线！

资讯配图

禁止私自转载，需要转载请先征求我的同意！

欢迎你的加入，让我们一起交流、讨论与成长！

若二维码失效：关注公众号--》交流分享--》联系我们

资讯配图

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号