蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,树立开源多模态新标杆

科技区角 2026-02-11 12:02

【区角快讯】2026年2月11日,蚂蚁集团正式对外开源其最新一代全模态大模型Ming-Flash-Omni 2.0。该模型在多项公开基准测试中展现出卓越性能,尤其在视觉语言理解、语音可控生成以及图像生成与编辑等核心能力上表现突出,部分指标已超越Gemini 2.5 Pro,被业界视为当前开源全模态大模型的性能新标杆。


Ming-Flash-Omni 2.0同时也是业内首个支持全场景音频统一生成的模型,能够在单一音轨内同步合成语音、环境音效与背景音乐。用户仅需通过自然语言指令,即可对音色、语速、语调、音量、情绪乃至方言等参数实施精细化调控。

在推理效率方面,该模型实现了3.1Hz的极低推理帧率,能够实时生成高保真度的分钟级长音频,在兼顾生成质量的同时显著优化了计算成本与响应速度,处于行业领先水平。

蚂蚁集团在全模态技术领域已深耕多年,Ming-Omni系列历经三次迭代,此次开源Ming-Flash-Omni 2.0标志着其将核心能力以“可复用底座”形式开放,旨在为开发者提供端到端的多模态应用统一入口。

据披露,该模型基于Ling-2.0架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标进行系统性优化。在视觉任务中,融合亿级细粒度数据与难例训练策略,显著提升了对近缘动植物、工艺细节及稀有文物等复杂对象的识别精度;音频模块支持语音、音效与音乐同轨生成,并具备零样本音色克隆与定制能力;图像生成方面则强化了复杂编辑的稳定性,涵盖光影调整、场景替换、人物姿态优化及一键修图等功能,即便在动态场景下也能维持画面连贯性与细节真实性。

目前,Ming-Flash-Omni 2.0的模型权重与推理代码已在Hugging Face等主流开源平台发布,用户亦可通过蚂蚁百灵官方平台Ling Studio在线体验和调用相关功能。

随着多模态AI逐步迈向统一架构时代,此类开源底座的推出有望加速跨模态应用的开发效率与落地进程。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 大模型
more
Kimi K2.5正式开源,月之暗面推多模态全能大模型
把海外网友晃瞎的神秘大模型,还是中国制造。
大模型的第一性原理:(二)信号处理篇
豆包Seedance 2.0正式上线,字节跳动强调真人素材需授权并坦言技术尚存优化空间
智谱GLM-5技术全公开,以“智能体工程”重塑大模型能力边界
豆包大模型2.0正式发布,多模态与Agent能力全面对标国际顶尖水平
小米开源首代机器人大模型公布,更智能
Seedance 2.0爆火致排队超8小时 官方回应算力瓶颈与版权审核机制
三个月完成两轮融资!前蚂蚁大模型首席架构师创业,发布行业首款 GEO 产品化 AI Agent
阶跃星辰开源Step 3.5 Flash大模型,聚焦Agent场景与本地部署能力
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号