DeepSeek V4这次放出来两个MoE模型,一个是Pro版,总参数1.6万亿,每次激活490亿;另一个是Flash版,总参数2840亿,每次激活130亿,两个都原生支持100万token上下文。

从 benchmark 结果来看,Pro版的最大推理模式Pro-Max,现在已经是开源模型里新的天花板了,知识、推理、长文本都全面超过上一代,甚至在百万上下文任务上超过了Gemini 3.1 Pro,Codeforces排名能到人类前23%,推理能力已经接近顶级闭源模型的水平。Flash版虽然参数小,给够推理预算,推理能力也能对标主流闭源模型,性价比很高。
2. 核心技术创新:混合压缩注意力解决长上下文效率问题
传统的注意力机制计算量是和上下文长度平方成正比的,上下文越长,计算量涨得越快,这是百万上下文最大的瓶颈。
DeepSeek V4的解决方案是混合两种压缩注意力:压缩稀疏注意力CSA和重度压缩注意力HCA,交替组合使用,把计算量和缓存体积压下来。

先讲压缩稀疏注意力CSA
这种压缩的思路说白了就是:远处的信息不需要每个token都保留,把多个token压缩成一个,再挑最相关的拿来用。
具体分这几步:
1. 第一步:压缩KV缓存,每m个原始token压缩成一个压缩KV条目,CSA默认m=4,也就是长度直接变成原来的四分之一。压缩的时候不是简单平均,而是给每个原始token学了权重,加上位置偏置,用softmax归一化之后再加权求和,保证压缩的时候不会丢太多信息,而且相邻压缩块还会重叠一点,避免边界信息丢失。
2. 第二步:稀疏选择,压缩完之后,每个query token只选top-k个最相关的压缩KV条目来做注意力,Pro版选1024个,Flash版选512个。为了快速选对,专门做了一个轻量的Lightning Indexer,用低秩的方式算相关性,不会加太多额外计算。
3. 补充局部信息,因为压缩之后同一个压缩块里的细节信息没了,而且最近的token往往是最相关的,所以额外加了一个滑动窗口分支,保留最近128个不压缩的token,和选出来的压缩KV放在一起做注意力,兼顾全局和局部的细节。

再讲重度压缩注意力HCA
HCA的思路更激进,追求更高的压缩率,默认压缩率m'=128,也就是长度直接变成原来的128分之一。它不用稀疏选择那一套了,压缩完之后直接做全稠密注意力,结构更简单。
除了压缩率更大,其余的结构和CSA差不多:都保留滑动窗口补充局部信息,都用共享KV的多查询注意力,都分分组输出投影降低计算量,核心区别就是压缩率和要不要稀疏选择。

重度压缩注意力HCA的架构图
实际效率提升有多大
根据DeepSeek给出的数据,在100万token上下文的情况下:
DeepSeek V4-Pro:单token推理FLOPs只有上一代V3.2的27%,KV缓存只有10%
DeepSeek V4-Flash:单token推理FLOPs只有V3.2的10%,KV缓存只有7%
而且KV缓存还用了混合精度存储,RoPE维度用BF16,其余用FP8,比纯BF16又省了一半空间,索引部分的计算直接用FP4,进一步提速。这么一套组合拳打下来,百万上下文才从原来的“实验室玩具”变成了可以日常用的功能。
3. 另外两个架构升级
除了注意力,DeepSeek V4还改了两个地方,提升训练稳定性和模型能力。
流形约束超连接mHC:改进传统残差连接
传统的残差连接就是简单的x + f(x),之前有人提出超连接HC,把残差流的宽度放大,不增加内层计算量就能提升模型表达能力,但问题是堆多层之后训练容易不稳定。
mHC就是给HC加了约束:把残差映射矩阵限制在双随机矩阵的流形上,保证映射的谱范数不超过1,正向反向传播都不会梯度爆炸,训练更稳定。同时输入输出映射也加了非负约束,避免信号抵消。
实际用下来,mHC只增加了不到7%的训练时间,就能带来明显的性能提升,算是一笔很划算的买卖。
Muon优化器:更快收敛更稳定
DeepSeek V4大部分参数都用了Muon优化器,只有嵌入、输出头、RMSNorm这些还用AdamW。Muon比传统AdamW收敛更快,训练更稳定,它的核心是用牛顿舒尔茨迭代做正交化,让权重更新更稳定。
DeepSeek这里还做了优化,用两阶段混合牛顿舒尔茨迭代,前8步用一组系数快速收敛,最后2步换另一组系数把奇异值稳定在1,效果比原来的更好。
4. 底层基础设施优化
要把这些新架构跑顺,底层工程优化少不了,这里挑几个关键的讲。
专家并行的细粒度流水掩盖通信延迟
MoE模型用专家并行,通信一直是瓶颈。DeepSeek把专家分成多波,每波专家完成通信就立刻开始计算,不用等所有专家都传完数据,让通信和计算完全重叠,把延迟掩盖掉。

实测下来,这个方案比原来的非融合方案快1.5到1.73倍,RL推理这种对延迟敏感的场景,最高能快1.96倍,相关的MegaMoE内核已经开源了。
FP4量化感知训练
为了省内存提速度,DeepSeek把MoE专家权重和CSA索引的QK路径都做了FP4量化,而且是量化感知训练,不是训完再量化,所以精度掉的很少。
这里有个巧思:FP4量化之后转成FP8计算是无损的,因为FP8比FP4多两个指数位,动态范围更大,只要块内最大最小比例不超过阈值,就能完全恢复,所以不用改现有FP8训练框架就能用,推理的时候直接用FP4权重,确实能省内存提速度。
专门为混合注意力设计的KV缓存管理
混合注意力有好几种不同的KV,压缩比和更新规则都不一样,传统的分页缓存不太适配。DeepSeek把缓存分成了两部分:
状态缓存:存滑动窗口的KV,还有还没凑够压缩数量的未压缩尾部token,每个请求预分配固定大小的块
经典压缩缓存:存已经压缩好的CSA和HCA的KV,按块分配,每个块覆盖两种压缩率的最小公倍数个原始token

还支持磁盘缓存存共享前缀,重复请求不用重复预计算,不同策略适配不同场景,平衡存储和计算。
5. 训练和后训练的优化
预训练阶段,Flash版训练了32T token,Pro版训练了33T token,从4K序列长度逐步拉长到1M,训练不稳定的问题,DeepSeek用了两个小技巧解决:
1. 预期路由:骨干网络和路由网络不同步更新,路由用历史参数算索引,提前缓存,遇到loss spike才自动开启,不怎么增加额外开销就能解决 spikes
2. SwiGLU截断:把SwiGLU的线性分量限制在[-10,10],门分量上限10,消除数值 outliers,稳定训练
后训练用了新的流程:先分别训练各个领域的专家模型,每个专家单独做SFT和RL,最后用在线策略蒸馏把多个专家的能力合并到一个模型里,比原来的混合RL效果好,不会有性能退化。
还支持三种推理模式,满足不同场景:不思考模式适合日常快速响应,高思考模式适合复杂问题,最大思考模式专门用来冲推理极限,把推理能力拉满。工具调用也改了新的schema,降低调用错误率,还支持保留多轮推理历史,长周期agent任务不用每次重新构建状态。
6. 实际体验和行业影响
从评测结果来看,DeepSeek V4-Pro-Max现在确实是开源模型的新天花板:知识类SimpleQA比之前的开源模型高了20个百分点,推理上Codeforces评分达到3206,已经和GPT-5.4差不多,是第一次开源模型在代码竞赛上追平顶级闭源模型;百万上下文任务上,MRCR检索超过Gemini 3.1 Pro,实际中文任务上,写作赢了Gemini 3.1 Pro,白领任务不输给Claude Opus 4.6,代码代理也接近Opus 4.5的水平。

最关键的不是它做到了百万上下文,而是它做到百万上下文的同时,把推理成本降下来了。原来跑百万上下文,需要的显存和计算量高到离谱,一般玩家玩不起,现在DeepSeek把计算量和缓存都压到原来的十分之一,让百万上下文真的能用了。
这相当于给测试时间缩放打开了新空间,以后模型要提升推理能力,就可以放开了多推理、多思考,不用被上下文长度和计算成本卡住。
长周期agent、全文档分析、在线学习这些方向,也有了更扎实的基础。
总结一下。
DeepSeek-V4是一整套从架构到工程到训练到推理的全面优化。
1.6T参数,49B激活,百万上下文,27%的计算量,10%的KV缓存。
这组数字放在一起,就是四个字——效率革命。
以前的模型在处理长文本时,就像是开着皮卡拉货,油耗高、跑得慢。
DeepSeek-V4相当于又快又省。
当然,它也有缺点——架构太复杂了,各种trick叠在一起。
但话说回来,在这个算力就是金钱的时代,谁能用更少的钱跑出更好的效果,谁就是牛X。
DeepSeek-V4,就是那个能让你少花钱多办事的狠角色。
手里的矿再多,也不如脑子里的活好使。
文章来源于歪睿老哥,作者