电子发烧友网综合报道,近日,Nvidia 推出了一款新的小型语言模型 Nemotron-Nano-9B-v2,该模型在多项基准测试中表现优异,且用户可灵活控制其推理功能的开关。该模型以 Nemotron-H 系列为基础,融合了 Mamba 和 Transformer 架构。其中,Mamba 架构引入的选择性状态空间模型(SSM),能够以线性复杂度处理长信息序列,在内存和计算开销方面更具优势;压缩后的模型可在 A10G GPU 上运行,适用于智能终端、工业设备等低功耗环境。据悉,Nemotron-Nano-9B-v2 的处理速度比同等规模的 Transformer 模型快 6 倍。在多项基准测试中,其准确率与 Qwen3-8B、Gemma3-12B 等同级开源模型持平甚至更优。此外,该模型内置 “推理” 功能,可让用户在模型输出最终答案前进行自我检查,用户只需通过简单的控制符(如 /think 或 /no_think)即可开启或关闭此功能。同时,模型还支持运行时 “思考预算” 管理,开发者能够限制用于内部推理的令牌数量,进而在准确性和延迟之间找到平衡。Nemotron-Nano-9B-v2 采用开源模式,其预训练数据集和模型本身已在 Hugging Face 及英伟达的模型目录中提供,且遵循 NVIDIA 开放模型许可协议,可完全免费商用,无需支付版税。Nemotron-Nano-9B-v2 的发布或许会掀起一股全新热潮,推动企业从依赖通用大语言模型(LLMs)转向定制化小模型。小模型针对特定任务(如库存分析、客户服务、市场分析等)进行了优化,能够高效处理特定任务、生成多模态内容,并提供更具个性化的服务。例如,阿里的 Qwen3 系列开源小模型在不同尺寸版本上均有出色表现,这充分证明了小模型在保持较低资源消耗的同时,也能实现令人印象深刻的性能。目前,市场上小模型的发布十分密集。除了 Nemotron-Nano-9B-v2,MIT 子公司 Liquid AI 近期也发布了一款名为 LFM2-VL 的新型视觉 - 语言模型。该模型小巧高效,可轻松应用于智能手表等可穿戴设备,其设计目标是让多模态 AI 能在资源受限的设备上高效运行,同时保持低延迟和高精度。LFM2-VL 基于 LFM2 架构,采用 Linear Input-Varying(LIV)系统,能根据每次输入即时生成模型权重,减少冗余计算,提升设备端推理速度。该模型可处理文本和图像,支持不同分辨率的输入,并针对实际场景优化了速度与精度的平衡。在 GPU 推理速度上,LFM2-VL 比同类视觉 - 语言模型快一倍以上,同时在常见评测中保持着竞争力。用户可根据部署场景调整图像 token 的最大数量和 patch 分块参数,以权衡速度与画质。小模型的发布具有多方面的重要意义。它促使研究人员探索新的架构设计,如选择性状态空间模型(SSM)等,这些创新架构能以更高效的方式处理信息,为 AI 技术的发展提供了新思路和新方向。此外,小模型对硬件资源的要求较低,使得更多企业和开发者能够负担起 AI 技术的应用,降低了 AI 技术的使用门槛,推动了 AI 技术在各个领域的广泛普及,尤其是在智能手机和可穿戴设备领域,AI 小模型展现出了巨大的想象空间。声明:本文由电子发烧友综合报道,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。更多热点文章阅读软银豪掷20亿美元救场!英特尔迎生死时刻,特朗普政府拟成最大股东AI能源破局者!SOFC将成数据中心“新电王”腾讯:无需继续采购英伟达H20芯片日本三氟化氮厂爆炸:存储或趁机涨价,国产厂商紧急补位太燃了!人形机器人1500米比赛,这家夺冠!更有机器人全程自主奔跑点击关注 星标我们将我们设为星标,不错过每一次更新!喜欢就奖励一个“在看”吧!