【区角快讯】当AI智能体不再受限于碎片化的感知模块,而是具备原生全模态理解能力时,人机交互的边界将被彻底重构。4月29日,快科技援引媒体消息指出,英伟达在官网正式推出开源多模态模型“Nemotron 3 Nano Omni”。这款新模型将视频、音频、图像及文本的高级推理能力整合于单一系统内,旨在为智能体提供更迅捷、更聪慧的响应机制。

英伟达宣称,该模型以卓越的准确度与低廉的成本,确立了开放式多模态领域的效率新标杆。在涵盖复杂文档解析、视听理解等六大权威基准测试中,其表现均位列第一。技术层面,Nemotron 3 Nano Omni采用30B-A3B混合专家(MoE)架构,通过内置视觉与音频编码器,摒弃了对外部感知模型的依赖,从而大幅优化了大规模推理效能。数据显示,在同等交互条件下,其系统吞吐量达到其他开放式全向模型的9倍之多。
值得注意的是,产业界已迅速跟进。H Company首席执行官Gautier Cloix评价道:“借助该模型,我们的智能体能快速解读全高清屏幕录像,这是此前难以企及的能力。”他进一步强调,这不仅是速度的飞跃,更是智能体实时感知并与数字环境互动方式的根本性变革。目前,包括Aible、富士康在内的多家企业已率先部署该模型。
此外,英伟达透露,Nemotron 3 Nano Omni可与专有云模型、其他Nemotron开放模型及第三方模型协同工作,有效支撑代理工作流程中的子代理任务。回顾过去一年,包含Nano、Super和Ultra型号在内的Nemotron 3系列模型,累计下载量已突破5000万次大关,显示出市场对高效能基础模型的强劲需求。