一文速览DeepSeek V3.1中4个关键更新+一些“鲜为人知”的细节,没有想象中那么好!

AI产品汇 2025-08-20 08:17

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



HF链接-https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base/tree/main



资讯配图


01-DeepSeek V3.1简介

资讯配图

DeepSeek-V3.1-Base有如下4个关键更新:

  • 这是一个混合模型,具有可切换的思维模式,这种模式已经被Qwen所抛弃,或许DeepSeek找到了更好的解决方案?

  • 添加了对搜索令牌的原生支持,这意味着更好的搜索功能。我特别检查了一下,R1没有这个令牌,所以它可能是一个新启用的用于原生搜索支持的令牌,而不是用于统一V3和R1的词汇表。社区报告称,除非明确提示不搜索,否则搜索触发率特别高。

  • 编程能力可能特别强。根据Aider从社区测试的数据,它直接在开放权重模型中排名第一。

  • 上下文长度没有改变;旧的DeepSeek-V3-Base也有128K。

02-DeepSeek V3.1关键信息

02.01-模型参数解析
资讯配图
    通过观察官方提供的config.json文件,我们可以了解到该模型的一些关键参数。与DeepSeek V3-0324相比,该模型的参数并没有发生很大的改变。
02.02-模型架构解析
资讯配图
    通过观察官方提供的模型权重,我们可以发现:与DeepSeek V3-0324相比,该模型的架构并没有发生很大的改变。
02.03-模型指标剖析
资讯配图

    这是网友提供的一份与当前的一些主流模型的跑分结果,我们可以观察到:与其它模型相比,该模型的给选哪个指标在DeepSeek V3-0324版本的基础上有一定的提升,使用成本更低、平均耗时更低!

03-DeepSeek V3.1效果展示

03.01-情感理解能力
资讯配图
    为了测试该模型的情感理解能力是否得到提升,某网友对其进行了测试。测试结果表明:该模型的情感能力并没有得到较大的其它,与其它SOTA模型想比,还具有一些差异。
03.02-物理理解能力
    这是某网友基于DeepSeek-V3.1的一个测试样例,主要像看看该模型的物理理解能力,测试结果表明:该模型的物理理解能力有一定的提升。


04-DeepSeek V3.1总结

资讯配图
    哈哈,坐等官方放出模型信息卡,公布更多的信息出来。以上大部分信息都是网友的观点,可能存在偏颇,大家了解了解就行。


关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号