英伟达再出手！新型混合架构模型问世，两大创新实现53.6倍吞吐提速

机器之心报道

机器之心编辑部

又一个真正轻量、快速、强悍的大语言模型闪亮登场！

Transformer 架构对计算和内存的巨大需求使得大模型效率的提升成为一大难题。为应对这一挑战，研究者们投入了大量精力来设计更高效的 LM 架构。

与此同时，大量工作致力于构建混合模型，将全注意力和线性注意力相结合，以在准确性和效率之间取得平衡。虽然这些模型比全注意力架构具有更高的效率，但其准确性仍明显落后于 SOTA 全注意力模型。

近日，来自英伟达的研究者提出了一种新的混合架构语言模型新系列 ——Jet-Nemotron。其在达到 SOTA 全注意力模型精度的同时，还具备卓越的效率。

具体来说，2B 版本的 Jet-Nemotron 性能就能赶超 Qwen3、Qwen2.5、Gemma3 和 Llama3.2 等最 SOTA 开源全注意力语言模型，同时实现了显著的效率提升。在 H100 GPU 上，其生成吞吐量实现了高达 53.6 倍的加速（上下文长度为 256K，最大 batch size）。

此外，在 MMLU 和 MMLU-Pro 基准上，Jet-Nemotron 的准确率也超过了近期一些先进的 MoE 全注意力模型（如 DeepSeek-V3-Small 和 Moonlight），尽管这些模型的参数规模更大。

论文标题：Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search
论文地址：https://www.arxiv.org/pdf/2508.15884

下图将 Jet-Nemotron 与之前的高效大语言模型进行了对比。

值得注意的是，Jet-Nemotron-2B 在 MMLU-Pro 上的准确率高于 Qwen3-1.7B-Base，并且在 64K 上下文长度下，在英伟达 H100 GPU 上的生成吞吐量是后者的 47 倍。

Jet-Nemotron 建立在两项核心创新之上：

后神经架构搜索 (Post Neural Architecture Search，PostNAS)：一种高效的后训练架构探索与自适应 pipeline，可适用于任意预训练的 Transformer 模型。
JetBlock：一种新型的线性注意力模块，其性能显著优于 Mamba2 等先前的设计。

英伟达研究科学家 Han Cai 以及 MIT 副教授韩松都各自在推特上「安利」了这项研究，其中韩松表示「一个轻量级且可以快速运行的大语言模型来了。」

PostNAS —— 后训练架构探索与自适应

与以往从零开始训练模型、以探索新架构的方法不同，PostNAS 的思路是：在已有的预训练 Transformer 模型上，灵活尝试不同的注意力（attention）模块设计。这样不仅大大降低了开发新型大语言模型架构的成本和风险，还提高了研究效率。

当然，在这一框架下设计出的新架构，如果直接从零训练，可能并不能达到最优结果。但研究者认为，它们依然非常有价值：

立即带来收益 —— 如图 1 所示，这些架构能在现有全注意力模型的基础上，实现效率和精度的立刻提升，从而带来实际好处，例如服务质量改善和运维成本下降。
快速的创新试验场 —— 如果一个新设计在该框架下表现不佳，那么它在完整的预训练过程中成功的可能性也极低。这个「过滤机制」帮助研究人员避免在无望的架构上浪费大量算力和资源。