新纪录!小米又抛出一个开源模型,在22个公开评测集上实现SOTA,主打声音理解

头部科技 2025-08-04 19:49
资讯配图
资讯配图
文丨丁灵波
小米的AI模型布局正在悄然进行中。
2025年4月份,小米大模型Core团队曾推出小米首个推理大模型MiMo-7B,专门聚焦推理任务;5月份,其多模态开源模型MiMo-VL-7B系列发布,在视觉理解和多模态推理任务中表现出色。
今天,小米的音频模型出炉了:MiDashengLM-7B,通过统一理解语音、环境声与音乐的跨领域能力,MiDashengLM不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。
资讯配图
结合高效的推理硬件部署,MiDashengLM能广泛用于智能座舱、智能家居等场景,推动多模态交互体验升级,此外,小米基于Apache 2.0开源协议发布,全球开发者、企业及学术机构可将其免费集成于商业产品或用于学术研究。
资讯配图
不同的技术策略
技术报告显示,MiDashengLM完全依赖公开可用的预训练和有监督微调(SFT)数据集,确保完全的透明度和可复现性。
当前的音频理解研究通常将语音转录文本、音频描述性文本和音乐描述性文本分开处理,这种独立处理的方式限制了听觉场景分析的深度和完整性,另一个关键局限源于现有的音频描述性文本,它们往往仅提供表面化的描述,无法捕捉关键的听觉特征,如房间声学混响或信号质量。
此外,小米技术团队认为,此前基于ASR的预训练对通用音频——语言理解的增益非常有限,原因主要有:
1、数据利用效率低下,基于百万小时级数据集的大规模预训练通常依赖现有的自动语音识别(ASR)流水线从语音中生成转录文本,这导致大量潜在有价值的数据丢失,例如音乐、环境噪音甚至无声停顿等声音信息都被丢弃。
资讯配图
2、目标任务过于简单,模型从基于ASR的数据中学习到的有意义信息相对较少。
3、基于ASR的预训练存在局限性,并不关注语音内容之外的信息,这种有限的范围意味着,在预训练过程中,重要的语音元信息(如说话人的性别、年龄或情绪状态)并未被捕捉或整合。
MiDashengLM模型的核心是整合了一种开源音频编码器Dasheng,该编码器经过专门设计,能够有效处理各类听觉信息,与以往主要聚焦于基于自动语音识别(ASR)的音频——文本对齐的研究不同,小米的新策略是以“通用音频描述”为核心,将语音、声响和音乐等信息融合为单一的文本表征,从而实现对复杂音频场景的整体文本呈现。
资讯配图
升级的框架
MiDashengLM模型的框架是一种常见的基于前缀的大型语言模型,其中音频编码器的特征通过多层感知器(MLP)层映射到大型语言模型(LLM)的嵌入空间中。
在所有阶段中,训练均采用标准的下一个token预测损失函数。第一阶段实现音频编码器与文本模态的对齐,之后提取该音频编码器并将其用于第二阶段的初始化。
资讯配图
与以往研究相比,MiDashengLM的差异主要体现在三个方面:
1、公开数据。该方法在预训练、有监督微调(SFT)和指令微调中仅使用公开可用的音频——文本数据。
2、音频——文本对齐。首次提出通过通用描述性文本实现音频——文本对齐,且不依赖自动语音识别(ASR)或基于声音事件的模型。
资讯配图
3、训练效率。由于大多数样本的长度在1到10秒之间,若填充至30秒,会导致训练和推理效率低下,因为编码器的大部分计算资源都被浪费了,小米采用的Dasheng音频编码器支持可变长度输入,减少了填充量进而提高训练效率。

此外,小米团队还将音频序列长度大幅下采样至5Hz的低帧率,以适配快速训练和推理速度。

资讯配图
开源音频模型新纪录
在用于评估编码器通用能力的X-ARES Benchmark上,Xiaomi Dasheng在多项关键任务上,尤其是非语音类理解任务上优于作为Qwen2.5-Omni、Kimi-Audio等模型的音频编码器Whisper,基于Dasheng预训练的编码器在X-Ares基准测试的22项任务中,有18项超过了Whisper-Large V3的成绩。

资讯配图

在此基础上,MiDashengLM在音频描述、声音理解、音频问答任务中呈现出显著优势,超过了两个强力基准模型:Qwen2.5-Omni和Kimi-Audio-Instruct。

资讯配图

在音乐和音频(声响)描述数据集上以及MECAT评估框架中,MiDashengLM均优于基准模型,在通用音频任务上的性能提升尤为显著,该模型在AutoACD数据集上大幅超越基准模型性能。

资讯配图

MiDashengLM完整公开了77个数据源的详细配比,技术报告中详细介绍了从音频编码器预训练到指令微调的全流程,训练数据100%来自公开数据集,涵盖五大类110万小时资源,且与基准方法相比,其推理速度最多可提升20.2倍,首token生成延迟最多可降低4倍。

整体来看,MiDashengLM作为一种高效的音频语言模型,有望进一步推动通用音频理解AI技术的发展。

此外,较小的模型参数也便于在边缘设备上进行部署,彰显出小米将AI功能引入消费级硬件生态的策略和布局,在当前激烈的AI模型竞争格局中走出了一条差异化路径,感兴趣的开发者可以上手一试。

-END-

资讯配图
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。
【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长——
扫描下方二维码,添加头部科技晶总微信!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 小米
more
刚刚,小米又开源一大模型,22个公开测评SOTA
小米汽车首次月交付超过3万台!
小米汽车被曝要求用户提前支付尾款,否则可能将暂停生产
169元!雷军给小米车主做了把定制雨伞
小米发了个499元的新品,有点骚啊
小米16终于确认,这次要发布5款机型
武汉这家芯片企业获OPPO华为小米字节投资
新品 | 新款智界 R7 实车曝光;小米众筹星核超级 AI 电脑
等了快三年!只要849的小米新机,有点东西啊
潮讯:小米浏览器接入豆包;苹果这产品停止维修;《英雄联盟手游》鸿蒙版来了;滴滴联合警方打击顺风车外挂
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号