DeepSeek开源新基础模型,但不是V4,而是V3.1-Base

机器之心 2025-08-20 08:14
机器之心报道

编辑:Panda


昨晚,深度求索在用户群里宣布「DeepSeek 线上模型版本已升级至 V3.1,上下文长度拓展至 128k」并更新了 UI (去掉了 DeepThink 旁的 R1 标示)之后,在 Hugging Face 发布了一款新模型 DeepSeek-V3.1-Base


资讯配图


模型地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base


从名字也能看出来,该模型是 DeepSeek-V3 系列最新的基础模型。至于为什么命名为 V3.1,而不是像之前以前命名为 V3 带四位日期数字的形式(如 V3-0324),尽管社区有诸多猜测,但深度求索官方尚未给出明确说明 —— 和该公司之前的操作一样,这一次同样是模型先行,说明和宣传还在后面。


该模型一发布就吸引了 AI 社区的广泛关注,短短几个小时就已经冲上了 Hugging Face 热门模型榜第 4 位!


资讯配图


具体技术指标上,DeepSeek-V3.1-Base 与 DeepSeek-V3 差别不大,同样的参数量,采用了混合专家(MoE)架构,拥有 128k 上下文长度。


资讯配图


整体来看,社交网络上对深度求索的这次更新看法不一。有人表示非常振奋,认为这是深度求索在为接下来的 DeepSeek-V4 和 DeepSeek-R2 做铺垫,但也有人认为这次更新不够亮眼,没有达到该公司之前的一贯水准。


对此,你怎么看?


资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
刚刚,DeepSeek新模型开源!五大能力变化明显,附一手体验
仅0.27B参数!谷歌开源史上最小Gemma 3,手机能跑,25次对话耗电不到1%
全面优于π0!星海图开源端到端双系统VLA模型G0:基于500小时真机数据预训练
港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
ICRA-2025 | 低成本、高隐私具身导航!Open-Nav:探索开源LLMs零样本视觉语言导航能力
首个开源多模态Deep Research智能体,超越多个闭源方案
字节Seed开源长线记忆多模态Agent,像人一样能听会看
本地也能玩转AI图片创作?腾讯3B开源模型实测:精准又轻便,统一生成理解,手把手教你部署
RSS 2025 软硬件全开源,智源清华带来混动灵巧脸Morpheus
Nous Research新研究:揭示「Token效率」陷阱,开源大模型Token消耗最高超闭源10倍
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号