英伟达发布Nemotron 3 Nano Omni：多模态推理效率跃升9倍，重塑AI智能体交互范式

【区角快讯】当AI智能体不再受限于碎片化的感知模块，而是具备原生全模态理解能力时，人机交互的边界将被彻底重构。4月29日，快科技援引媒体消息指出，英伟达在官网正式推出开源多模态模型“Nemotron 3 Nano Omni”。这款新模型将视频、音频、图像及文本的高级推理能力整合于单一系统内，旨在为智能体提供更迅捷、更聪慧的响应机制。

英伟达宣称，该模型以卓越的准确度与低廉的成本，确立了开放式多模态领域的效率新标杆。在涵盖复杂文档解析、视听理解等六大权威基准测试中，其表现均位列第一。技术层面，Nemotron 3 Nano Omni采用30B-A3B混合专家（MoE）架构，通过内置视觉与音频编码器，摒弃了对外部感知模型的依赖，从而大幅优化了大规模推理效能。数据显示，在同等交互条件下，其系统吞吐量达到其他开放式全向模型的9倍之多。

值得注意的是，产业界已迅速跟进。H Company首席执行官Gautier Cloix评价道：“借助该模型，我们的智能体能快速解读全高清屏幕录像，这是此前难以企及的能力。”他进一步强调，这不仅是速度的飞跃，更是智能体实时感知并与数字环境互动方式的根本性变革。目前，包括Aible、富士康在内的多家企业已率先部署该模型。

此外，英伟达透露，Nemotron 3 Nano Omni可与专有云模型、其他Nemotron开放模型及第三方模型协同工作，有效支撑代理工作流程中的子代理任务。回顾过去一年，包含Nano、Super和Ultra型号在内的Nemotron 3系列模型，累计下载量已突破5000万次大关，显示出市场对高效能基础模型的强劲需求。