节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋

文丨谭梓馨

总爱在节假日前搞重磅发布的DeepSeek，这次又没让大家失望。

9月29日晚间，DeepSeek突然放出重磅消息——实验性版本的稀疏注意力模型DeepSeek-V3.2-Exp正式发布并开源。

节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋图2

令人惊讶的一点是，其API价格同步下调了超50%，缓存命中时输入价格从0.5元/百万token降至0.2元，输出价格从12元/百万token暴跌至3元。

节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋图3

又一个重磅创新点

按综合性价比来说，在API调用层面，DeepSeek-V3.2-Exp对开发者而言是成本最低的选择之一，因为OpenAI、谷歌等AI大厂也有同等便宜的模型来竞争。以下是它与其他主流模型的对比情况：

节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋图5

DeepSeek-V3.2-Exp此次发布的技术核心是“DeepSeek稀疏注意力”（DeepSeek Sparse Attention，简称 DSA）机制，它创造性地融合了“高效计算”与“精准筛选”的双重优势。

传统的密集注意力机制会计算序列中每个token与其他所有token之间的交互关系，其计算量随序列长度呈二次方增长。随着token数量增加，这会导致内存占用和计算需求急剧上升，进而推高成本并降低推理速度。

大多数大型语言模型（LLM）均采用“密集型”自注意力机制，即让输入中的每个token与其他所有token进行关联计算。因此，若提示词（prompt）长度翻倍，模型为处理所有token间的交互关系，所需完成的计算量增长会远超两倍。

这会增加GPU使用时间与能耗成本，而这些成本最终会体现在API的 “每百万token定价” 中。在预填充阶段，计算量大致随上下文长度的平方增长；而在解码阶段，计算量至少会随上下文长度线性增长。结果便是：当序列长度达到数万甚至超过10万个token时，成本的涨幅会远高于token数量本身的涨幅。

节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋图6

DSA通过“闪电索引器”（lightning indexer）解决了这一问题——它仅筛选出与当前任务最相关的token进行注意力计算。

这种设计在降低计算负荷的同时，几乎保持了相同的响应质量。

通过在“长上下文长度”场景下减少每个token的计算负担，V3.2-Exp使成本曲线更平缓、整体成本更低。

这一特性让“长上下文任务”的落地变得更具实用性且成本可控，例如文档级总结、长历史多轮对话、代码分析等场景，无需再面对推理成本失控增长的问题。

专家蒸馏与强化学习

除架构层面的调整外，DeepSeek-V3.2-Exp还对后训练流程进行了优化。该公司采用了“两步法”方案：专家蒸馏与强化学习。

专家蒸馏的第一步，是针对不同领域分别训练专用模型，涵盖数学、竞赛编程、逻辑推理、智能体编码（agentic coding）与智能体搜索（agentic search）。这些 “专家模型” 均基于同一基础检查点（base checkpoint）进行微调，并通过大规模训练强化能力，以生成领域专属数据。随后，这些领域数据会被蒸馏整合至最终检查点，确保整合后的模型既受益于专家模型的领域知识，又能保持通用能力。

节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋图8

强化学习阶段则实现了重大改进。不同于DeepSeek以往模型采用的“多阶段方法”，此次模型将推理能力、智能体能力及人类对齐（human alignment）训练，通过组相对策略优化（Group Relative Policy Optimization，简称GRPO）整合到了单一强化学习阶段。

这种一体化流程不仅能平衡各领域的性能表现，还避免了多阶段流程中常见的“灾难性遗忘（catastrophic forgetting）”问题——即模型在学习新领域知识时，丢失此前已掌握的能力。

节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋图9

实验结果显示，经过蒸馏与强化学习优化的模型，性能几乎与领域专用专家模型持平；且在强化学习训练后，两者间的性能差距被有效缩小。

在几乎不影响模型输出效果的前提下，新模型实现了长文本训练和推理效率的大幅提升。

节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋图10

为了严谨地评估引入稀疏注意力带来的影响，演技人员特意把DeepSeek-V3.2-Exp的训练设置与V3.1-Terminus进行了严格的对齐，在各领域的公开评测集上，DeepSeek-V3.2-Exp的表现与V3.1-Terminus基本持平。

一起期待“V4”

秉承开源的理念，DeepSeek在MIT许可下发布了V3.2-Exp模型权重，供研究人员和企业免费下载、修改和部署该模型用于商业用途。

对于本地部署，DeepSeek提供了更新的演示代码，以及与NVIDIA H200、AMD MI350和NPU兼容的Docker镜像，该模型包含6850亿个参数，支持多种张量类型，包括BF16、FP8和FP32。

节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋图12

DeepSeek-V3.2-Exp展示了开源参与者如何推动前沿规模模型，同时解决成本和部署的实际挑战。

通过引入稀疏注意力、降低API价格、将强化学习合并到统一阶段，并通过Hugging Face和GitHub发布保持完全透明，DeepSeek既提供了研究测试平台，也提供了可行的企业选择。

节前放大招！DeepSeek-V3.2-Exp降价50%，智谱、Anthropic发新模型争锋图13

不过这个假期，新发模型不止DeepSeek一家，从目前的基准跑分来看，国内的智谱发布了旗下最强代码Coding模型GLM-4.6，在模型通用能力的评估中，GLM-4.6在部分榜单表现对齐Claude Sonnet 4/Claude Sonnet 4.5，压过DeepSeek的新模型一头。

而美国AI独角兽Anthropic则推出了Claude Sonnet 4.5，定位为“世界上最好的编码模型”，其自主编码时长提升到了30多个小时，向OpenAI最近发布的GPT-5发起挑战。

DSA作为V3.2-Exp的核心创新，被认为是DeepSeek迈向下一代模型的关键中间步骤，其设计思路（如分层索引、动态稀疏模式）为未来千亿级模型的高效训练和推理提供了可复用的技术范式。

V3.2-Exp的实验性质也为迭代留下了更大创新空间，或为V4版本打下更好的基础。