聊聊大模型推理系统之 Nemotron Elastic:告别重复训练!NVIDIA用“一模型多尺寸”重构推理型LLM研发范式

机智流 2025-11-25 20:13

聊聊大模型推理系统之 Nemotron Elastic:告别重复训练!NVIDIA用“一模型多尺寸”重构推理型LLM研发范式图1

聊聊大模型推理系统之 Nemotron Elastic:告别重复训练!NVIDIA用“一模型多尺寸”重构推理型LLM研发范式图2

大语言模型(LLM)正变得越来越“重”:从Llama-3.1的 8B、70B 到 405B 参数,每个尺寸都要从头训练,动辄消耗数万亿 tokens。如果能用一个模型覆盖多尺寸部署需求,不仅能大幅降低训练成本,还能简化推理部署——这正是Nemotron Elastic要解决的问题。

近日,NVIDIA 团队发布论文《Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs》,首次将“弹性模型”(Elastic Model)技术扩展至推理型大模型混合 Mamba-Attention 架构,仅用110B 训练 tokens,就从一个 12B 模型中零成本提取出 9B 和 6B 子模型,训练成本相比从头训练下降360 倍,比当前主流压缩方法(如Minitron-SSM)也节省了7 倍。更重要的是,这些嵌套子模型在多项推理基准上性能持平甚至超越独立训练的基线模型。

聊聊大模型推理系统之 Nemotron Elastic:告别重复训练!NVIDIA用“一模型多尺寸”重构推理型LLM研发范式图3

论文链接:https://arxiv.org/abs/2511.16664

开源模型:https://huggingface.co/nvidia/Nemotron-Elastic-12B


核心看点

聊聊大模型推理系统之 Nemotron Elastic:告别重复训练!NVIDIA用“一模型多尺寸”重构推理型LLM研发范式图4

Nemotron Elastic的核心突破在于:它让一个混合 Mamba-Attention 架构的大模型,内部“嵌套”多个不同尺寸的子模型,所有子模型共享权重,可在部署时零样本(zero-shot)直接提取,无需额外微调或蒸馏。这项技术首次面向推理型语言模型(Reasoning LLMs)设计,特别强调长上下文能力(支持 49K tokens),并引入端到端可学习路由机制,自动为不同计算预算选择最优架构配置。

在实证层面,从Nemotron Nano V2 12B出发,仅用单次训练就产出 6B、9B、12B 三个版本,在MATH-500、AIME、GPQA、LiveCodeBench等高难度推理任务上,Nemotron-Elastic-12B 平均得分 77.41,与原始 12B 模型(77.38)几乎持平;而 6B 子模型在 AIME-2025 上相比短上下文训练提升**19.8%**,证明其对复杂推理的适配能力。

此外,部署时只需存储一个完整模型+轻量路由元数据(<2%内存开销),即可支持多尺寸按需切换,相比传统方法节省43%内存(24GB vs 42GB),为边缘设备或动态负载场景提供实用方案。


研究背景

当前,构建面向不同部署场景(如手机、服务器、云端)的 LLM 家族,通常需对每个尺寸独立预训练,成本极高。即便采用结构化剪枝或**知识蒸馏(Knowledge Distillation)等压缩技术,仍需对每个目标尺寸进行数百 B tokens 级别的再训练,效率瓶颈明显。

更严峻的是,现代推理型大模型不再只是“回答问题”,而是通过思维链(Chain-of-Thought)生成多步推理过程,这类任务对长上下文建模能力(如 49K tokens)和架构弹性提出双重挑战。传统压缩方法往往忽略这一特性,导致压缩后模型在复杂推理任务上性能骤降。

NVIDIA 团队敏锐地意识到:推理模型的压缩不能简单套用通用 LLM 的策略。他们将切入点放在弹性训练(Elastic Training)与混合架构支持上——前者允许多尺寸子模型共存于同一母体,后者则利用Mamba(一种线性复杂度的状态空间模型,SSM)降低长序列计算开销。但如何让这两者协同工作,并适配推理任务的独特需求,尚无先例。


核心贡献

Nemotron Elastic的创新并非单一技术点,而是围绕“高效推理型弹性模型”构建的一整套方法体系:

聊聊大模型推理系统之 Nemotron Elastic:告别重复训练!NVIDIA用“一模型多尺寸”重构推理型LLM研发范式图5
  • 首次实现面向推理任务的弹性模型训练:提出两阶段课程训练策略。第一阶段用8K 上下文+均匀采样稳定路由;第二阶段切换至49K 上下文+非均匀采样(12B:9B:6B = 5:3:2),确保大模型不因小模型梯度干扰而性能退化。实验表明,此设计使 6B 模型在 AIME-2025 上提升 19.8% ,12B 模型在相同任务上提升 4.0% 。
聊聊大模型推理系统之 Nemotron Elastic:告别重复训练!NVIDIA用“一模型多尺寸”重构推理型LLM研发范式图6
  • 深度弹性化(Depth Elastification):传统弹性模型多仅调整宽度(如 FFN 维度、注意力头数)。本文提出基于归一化均方误差(Normalized MSE)的逐层重要性评估,通过对比移除某层前后 logits 的差异,精准排序各层贡献。这使得模型可在保留关键层的同时安全裁剪深度,比基于困惑度(Perplexity)的方法更可靠。

  • 异构宽度弹性与组感知 Mamba 压缩:支持逐层异构配置(如不同层使用不同 FFN 维度),突破以往弹性模型“同质压缩”的限制。针对Mamba模块,设计组感知掩码(Group-aware Masking),确保同一 SSM 组内的头保持结构一致性,避免破坏状态空间计算的完整性。

  • 知识蒸馏引导的联合优化:将原始 12B 模型作为冻结教师(Frozen Teacher),在弹性训练中同时优化 6B/9B/12B 三个子模型,通过KL 散度损失对齐输出分布。这使得子模型不仅压缩高效,还能高度复现教师行为,12B 子模型平均得分达 77.41(原始为 77.38)。

  • 端到端可学习路由架构:每个维度(嵌入、Mamba、注意力、FFN、深度)配备一个轻量路由器(Router),输入为目标尺寸(如 6B),输出为各组件的激活掩码。路由器通过Gumbel-Softmax实现可微分选择,并联合任务损失端到端训练,使架构决策直接受推理难度驱动,而非依赖启发式规则。

聊聊大模型推理系统之 Nemotron Elastic:告别重复训练!NVIDIA用“一模型多尺寸”重构推理型LLM研发范式图7

行业意义

Nemotron Elastic的出现,标志着大模型研发范式正从“多模型并行训练”向“一模型多尺寸嵌套”演进。这一转变高度契合当前 AI 产业对降本增效与绿色计算的双重诉求:

  • 对推理型 LLM 技术路线而言,它证明了长上下文推理与模型压缩可协同优化,为后续Agent、代码生成等高阶应用提供轻量化基座;
  • 在部署层面,其“常数内存开销”特性(无论家族包含多少尺寸,部署内存 ≈ 最大模型)显著降低运维复杂度,尤其适合需动态切换模型规格的云边协同或多租户 SaaS 平台;
  • 从国家战略看,360 倍的训练 token 节省,意味着同等算力下可探索更多模型组合,加速国产大模型在垂直领域(如金融、医疗、工业)的落地效率,减少对超大规模算力的依赖。

未来,随着动态推理时路由量化集成等方向的拓展,Nemotron Elastic有望成为构建“绿色、高效、灵活”大模型基础设施的关键一环,推动 AI 从“大即是好”走向“恰到好处”。

论文标题:Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs

论文链接:https://arxiv.org/abs/2511.16664

开源模型:https://huggingface.co/nvidia/Nemotron-Elastic-12B

 

> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对

 

-- 完 --

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC 大模型
more
小红书提出社交大模型RedOne 2.0:兼听、敏行
无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
硬刚 GPT-5 !这款中国开源 AI 模型拿下全球第一,有何杀手锏?
Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
ChatGPT 三周年遭 DeepSeek 暴击,23 页技术报告藏着开源登顶的全部秘密
全世界在等的Gemini 3终于来了!强到断崖领先,连马斯克OpenAI都夸好
亚马逊Agent克服遗忘的“秘诀”,被中国团队掌握,让大模型遗忘率趋近于0
4.3亿大模型大单!讯飞拿下
测完Nano Banana Pro的时空重现,我人傻了……
刚刚,年度最强 AI 登场!马斯克奥特曼点赞 Gemini 3,体验后我发现 ChatGPT 要慌了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号