DeepSeek V4 深度解析：百万token上下文是怎么做到高效运行的

1. 整体是什么水平

DeepSeek V4这次放出来两个MoE模型，一个是Pro版，总参数1.6万亿，每次激活490亿；另一个是Flash版，总参数2840亿，每次激活130亿，两个都原生支持100万token上下文。

DeepSeek V4 深度解析：百万token上下文是怎么做到高效运行的图1

从 benchmark 结果来看，Pro版的最大推理模式Pro-Max，现在已经是开源模型里新的天花板了，知识、推理、长文本都全面超过上一代，甚至在百万上下文任务上超过了Gemini 3.1 Pro，Codeforces排名能到人类前23%，推理能力已经接近顶级闭源模型的水平。Flash版虽然参数小，给够推理预算，推理能力也能对标主流闭源模型，性价比很高。

2. 核心技术创新：混合压缩注意力解决长上下文效率问题

传统的注意力机制计算量是和上下文长度平方成正比的，上下文越长，计算量涨得越快，这是百万上下文最大的瓶颈。

DeepSeek V4的解决方案是混合两种压缩注意力：压缩稀疏注意力CSA和重度压缩注意力HCA，交替组合使用，把计算量和缓存体积压下来。

先讲压缩稀疏注意力CSA

这种压缩的思路说白了就是：远处的信息不需要每个token都保留，把多个token压缩成一个，再挑最相关的拿来用。

具体分这几步：

1. 第一步：压缩KV缓存，每m个原始token压缩成一个压缩KV条目，CSA默认m=4，也就是长度直接变成原来的四分之一。压缩的时候不是简单平均，而是给每个原始token学了权重，加上位置偏置，用softmax归一化之后再加权求和，保证压缩的时候不会丢太多信息，而且相邻压缩块还会重叠一点，避免边界信息丢失。

2. 第二步：稀疏选择，压缩完之后，每个query token只选top-k个最相关的压缩KV条目来做注意力，Pro版选1024个，Flash版选512个。为了快速选对，专门做了一个轻量的Lightning Indexer，用低秩的方式算相关性，不会加太多额外计算。

3. 补充局部信息，因为压缩之后同一个压缩块里的细节信息没了，而且最近的token往往是最相关的，所以额外加了一个滑动窗口分支，保留最近128个不压缩的token，和选出来的压缩KV放在一起做注意力，兼顾全局和局部的细节。

压缩稀疏注意力CSA的架构图

再讲重度压缩注意力HCA

HCA的思路更激进，追求更高的压缩率，默认压缩率m'=128，也就是长度直接变成原来的128分之一。它不用稀疏选择那一套了，压缩完之后直接做全稠密注意力，结构更简单。

除了压缩率更大，其余的结构和CSA差不多：都保留滑动窗口补充局部信息，都用共享KV的多查询注意力，都分分组输出投影降低计算量，核心区别就是压缩率和要不要稀疏选择。

重度压缩注意力HCA的架构图

实际效率提升有多大

根据DeepSeek给出的数据，在100万token上下文的情况下：

DeepSeek V4-Pro：单token推理FLOPs只有上一代V3.2的27%，KV缓存只有10%

DeepSeek V4-Flash：单token推理FLOPs只有V3.2的10%，KV缓存只有7%

而且KV缓存还用了混合精度存储，RoPE维度用BF16，其余用FP8，比纯BF16又省了一半空间，索引部分的计算直接用FP4，进一步提速。这么一套组合拳打下来，百万上下文才从原来的“实验室玩具”变成了可以日常用的功能。

3. 另外两个架构升级

除了注意力，DeepSeek V4还改了两个地方，提升训练稳定性和模型能力。

流形约束超连接mHC：改进传统残差连接

传统的残差连接就是简单的x + f(x)，之前有人提出超连接HC，把残差流的宽度放大，不增加内层计算量就能提升模型表达能力，但问题是堆多层之后训练容易不稳定。

mHC就是给HC加了约束：把残差映射矩阵限制在双随机矩阵的流形上，保证映射的谱范数不超过1，正向反向传播都不会梯度爆炸，训练更稳定。同时输入输出映射也加了非负约束，避免信号抵消。

实际用下来，mHC只增加了不到7%的训练时间，就能带来明显的性能提升，算是一笔很划算的买卖。

Muon优化器：更快收敛更稳定

DeepSeek V4大部分参数都用了Muon优化器，只有嵌入、输出头、RMSNorm这些还用AdamW。Muon比传统AdamW收敛更快，训练更稳定，它的核心是用牛顿舒尔茨迭代做正交化，让权重更新更稳定。

DeepSeek这里还做了优化，用两阶段混合牛顿舒尔茨迭代，前8步用一组系数快速收敛，最后2步换另一组系数把奇异值稳定在1，效果比原来的更好。

4. 底层基础设施优化

要把这些新架构跑顺，底层工程优化少不了，这里挑几个关键的讲。

专家并行的细粒度流水掩盖通信延迟

MoE模型用专家并行，通信一直是瓶颈。DeepSeek把专家分成多波，每波专家完成通信就立刻开始计算，不用等所有专家都传完数据，让通信和计算完全重叠，把延迟掩盖掉。

DeepSeek V4 深度解析：百万token上下文是怎么做到高效运行的图5

实测下来，这个方案比原来的非融合方案快1.5到1.73倍，RL推理这种对延迟敏感的场景，最高能快1.96倍，相关的MegaMoE内核已经开源了。

FP4量化感知训练

为了省内存提速度，DeepSeek把MoE专家权重和CSA索引的QK路径都做了FP4量化，而且是量化感知训练，不是训完再量化，所以精度掉的很少。

这里有个巧思：FP4量化之后转成FP8计算是无损的，因为FP8比FP4多两个指数位，动态范围更大，只要块内最大最小比例不超过阈值，就能完全恢复，所以不用改现有FP8训练框架就能用，推理的时候直接用FP4权重，确实能省内存提速度。

专门为混合注意力设计的KV缓存管理

混合注意力有好几种不同的KV，压缩比和更新规则都不一样，传统的分页缓存不太适配。DeepSeek把缓存分成了两部分：

状态缓存：存滑动窗口的KV，还有还没凑够压缩数量的未压缩尾部token，每个请求预分配固定大小的块

经典压缩缓存：存已经压缩好的CSA和HCA的KV，按块分配，每个块覆盖两种压缩率的最小公倍数个原始token

还支持磁盘缓存存共享前缀，重复请求不用重复预计算，不同策略适配不同场景，平衡存储和计算。

5. 训练和后训练的优化

预训练阶段，Flash版训练了32T token，Pro版训练了33T token，从4K序列长度逐步拉长到1M，训练不稳定的问题，DeepSeek用了两个小技巧解决：

1. 预期路由：骨干网络和路由网络不同步更新，路由用历史参数算索引，提前缓存，遇到loss spike才自动开启，不怎么增加额外开销就能解决 spikes

2. SwiGLU截断：把SwiGLU的线性分量限制在[-10,10]，门分量上限10，消除数值 outliers，稳定训练

后训练用了新的流程：先分别训练各个领域的专家模型，每个专家单独做SFT和RL，最后用在线策略蒸馏把多个专家的能力合并到一个模型里，比原来的混合RL效果好，不会有性能退化。

还支持三种推理模式，满足不同场景：不思考模式适合日常快速响应，高思考模式适合复杂问题，最大思考模式专门用来冲推理极限，把推理能力拉满。工具调用也改了新的schema，降低调用错误率，还支持保留多轮推理历史，长周期agent任务不用每次重新构建状态。

6. 实际体验和行业影响

从评测结果来看，DeepSeek V4-Pro-Max现在确实是开源模型的新天花板：知识类SimpleQA比之前的开源模型高了20个百分点，推理上Codeforces评分达到3206，已经和GPT-5.4差不多，是第一次开源模型在代码竞赛上追平顶级闭源模型；百万上下文任务上，MRCR检索超过Gemini 3.1 Pro，实际中文任务上，写作赢了Gemini 3.1 Pro，白领任务不输给Claude Opus 4.6，代码代理也接近Opus 4.5的水平。

DeepSeek V4 深度解析：百万token上下文是怎么做到高效运行的图7