小米声音理解大模型MiDashengLM-7B开源

8月4日消息，小米自研声音理解大模型「MiDashengLM-7B」今天正式发布，并全量开源。小米表示，，MiDashengLM-7B速度精度上实现双突破：单样本首Token延迟仅为同类模型1/4、同显存下并发超20倍，在22个公开评测集上刷新多模态大模型最佳成绩（SOTA）。

报导称，MiDashengLM-7B基于Xiaomi Dasheng作为音讯编码器和Qwen2.5-Omni-7B Thinker作为自回归译码器，透过创新的通用音讯描述训练策略，实现对语音、环境声音和音乐的统一理解。

2024年，小米发布的Xiaomi Dasheng声音基座模型，据称是国际上首次突破AudioSet 50+ mAP，在HEAR Benchmark环境声、语音、音乐三大领域建立领先优势并保持至今。

Xiaomi Dasheng在小米的智慧家庭和汽车座舱等场景有超过30个落地应用。业界首发的车外唤醒防御、手机音箱全天候监控异常声音、「打个响指」环境音关联IoT控制能力，以及小米YU7上搭载的增强哨兵模式划车检测等，背后都有Xiaomi Dasheng作为核心算法的赋能。

MiDashengLM的训练资料由100%的公开资料构成，模型以宽松的Apache License 2.0发布，同时支援学术和商业应用。

小米表示，不同于Qwen2.5-Omni等未公开训练资料细节的模型，MiDashengLM完整公开了77个资料来源的详细配比，技术报告中详细介绍了从音讯编码器预训练到指令微调的全流程。

作为小米「人车家全生态」策略的关键技术，MiDashengLM透过统一理解语音、环境声与音乐的跨领域能力，不仅能听懂用户周围发生了什么事情，还能分析发现这些事情的隐藏含义，提高用户场景理解的泛化性。

基于MiDashengLM的模型透过自然语言和用户交互，为用户提更人性化的沟通和反馈，例如在用户练习唱歌或练习外语时提供发音反馈并制定针对性提升方案，又例如在用户驾驶车辆时实时对用户关于环境声音的提问做出解答。

MiDashengLM以Xiaomi Dasheng音讯编码器为核心元件，是Xiaomi Dasheng系列模型的重要升级。在目前版本的基础上，小米已着手对该模型做运算效率的进一步升级，寻求终端设备上可离线部署，并完善基于使用者自然语言提示的声音编辑等更全面的功能。

AI交流群