刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA

机器之心 2025-09-29 18:29
机器之心报道

机器之心编辑部


还是熟悉的节奏!


在假期前一天,DeepSeek 果然搞事了。


刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA图1


刚刚,DeepSeek-V3.2-Exp 开源了!


刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA图2


该模型参数量为 685B,HuggingFace 链接:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp


此外,此次发布竟然也同步公开了论文,公开了 DeepSeek 新的稀疏注意力机制,为我们提供了更多结束细节:


刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA图3


https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf


DeepSeek Sparse Attention(DSA)稀疏注意力机制


在官方介绍中,DeepSeek 表示 DeepSeek-V3.2-Exp 是实验版本。作为迈向下一代架构的过渡,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention,DSA)—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。


DSA 也是 3.2 版本的唯一架构改进。


刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA图4

DeepSeek-V3.2-Exp 的架构,其中 DSA 在 MLA 下实例化。


重点要说的是,DeepSeek 称该实验版本代表了他们对更高效的 Transformer 架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。


刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA图5


在 v3.2 版本中,DeepSeek 稀疏注意力 (DSA) 首次实现了细粒度稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。


为了严格评估引入稀疏注意力机制的影响,DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 9 月 22 日刚刚推出的 V3.1-Terminus 进行了对比。在各个领域的公开基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当。


刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA图6


更多信息,读者们可以查阅 DeepSeek-V3.2-Exp 的 huggingface 介绍。


值得一提的是,智谱的 GLM-4.6 也即将发布,在 Z.ai 官网可以看到,GLM-4.5 标识为上一代旗舰模型。


刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA图7


最后,有一波小节奏。在模型发布前,已经有网友在 Community 里发帖称:国庆是休息日,请给我们关注的同学一点休息时间。


刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA图8


对此,你怎么看?

刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA图9


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
NeurlPS'25开源 | 不依赖复杂初始化,GeoSVR:真正精确、完整的3D表面重建
机智流团队首份研究!全球首个音文对齐“慢思考”反诈数据集与生成框架开源发布,斩获ACM Multimedia 2025
实测开源版 nano banana:更聪明的超长文本渲染,彻底告别 AI 汉字鬼画符
CAIR开源发布超声基座大模型EchoCare“聆音”,10余项医学任务性能登顶
零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
Nano Banana不及格,开源模型一分难求!上海AI Lab新基准直击文生图模型痛点
节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世
NeurIPS'25 开源|Co-Adaptation-3DGS:3DGS的过度共适应现象是稀疏视角重建伪影的核心原因
狐讯 | 腾讯混元推出并开源混元图像 3.0;雷军回应小米 17 Pro Max 缺货
超越Langfun、OWL!这个国产开源智能体杀进全球第一梯队
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号