英伟达打响“小模型”第一枪

电子发烧友网综合报道，近日，Nvidia 推出了一款新的小型语言模型 Nemotron-Nano-9B-v2，该模型在多项基准测试中表现优异，且用户可灵活控制其推理功能的开关。

该模型以 Nemotron-H 系列为基础，融合了 Mamba 和 Transformer 架构。其中，Mamba 架构引入的选择性状态空间模型（SSM），能够以线性复杂度处理长信息序列，在内存和计算开销方面更具优势；压缩后的模型可在 A10G GPU 上运行，适用于智能终端、工业设备等低功耗环境。

据悉，Nemotron-Nano-9B-v2 的处理速度比同等规模的 Transformer 模型快 6 倍。在多项基准测试中，其准确率与 Qwen3-8B、Gemma3-12B 等同级开源模型持平甚至更优。此外，该模型内置 “推理” 功能，可让用户在模型输出最终答案前进行自我检查，用户只需通过简单的控制符（如 /think 或 /no_think）即可开启或关闭此功能。同时，模型还支持运行时 “思考预算” 管理，开发者能够限制用于内部推理的令牌数量，进而在准确性和延迟之间找到平衡。

Nemotron-Nano-9B-v2 采用开源模式，其预训练数据集和模型本身已在 Hugging Face 及英伟达的模型目录中提供，且遵循 NVIDIA 开放模型许可协议，可完全免费商用，无需支付版税。

Nemotron-Nano-9B-v2 的发布或许会掀起一股全新热潮，推动企业从依赖通用大语言模型（LLMs）转向定制化小模型。小模型针对特定任务（如库存分析、客户服务、市场分析等）进行了优化，能够高效处理特定任务、生成多模态内容，并提供更具个性化的服务。例如，阿里的 Qwen3 系列开源小模型在不同尺寸版本上均有出色表现，这充分证明了小模型在保持较低资源消耗的同时，也能实现令人印象深刻的性能。

目前，市场上小模型的发布十分密集。除了 Nemotron-Nano-9B-v2，MIT 子公司 Liquid AI 近期也发布了一款名为 LFM2-VL 的新型视觉 - 语言模型。该模型小巧高效，可轻松应用于智能手表等可穿戴设备，其设计目标是让多模态 AI 能在资源受限的设备上高效运行，同时保持低延迟和高精度。

LFM2-VL 基于 LFM2 架构，采用 Linear Input-Varying（LIV）系统，能根据每次输入即时生成模型权重，减少冗余计算，提升设备端推理速度。该模型可处理文本和图像，支持不同分辨率的输入，并针对实际场景优化了速度与精度的平衡。在 GPU 推理速度上，LFM2-VL 比同类视觉 - 语言模型快一倍以上，同时在常见评测中保持着竞争力。用户可根据部署场景调整图像 token 的最大数量和 patch 分块参数，以权衡速度与画质。

小模型的发布具有多方面的重要意义。它促使研究人员探索新的架构设计，如选择性状态空间模型（SSM）等，这些创新架构能以更高效的方式处理信息，为 AI 技术的发展提供了新思路和新方向。此外，小模型对硬件资源的要求较低，使得更多企业和开发者能够负担起 AI 技术的应用，降低了 AI 技术的使用门槛，推动了 AI 技术在各个领域的广泛普及，尤其是在智能手机和可穿戴设备领域，AI 小模型展现出了巨大的想象空间。

资讯配图