小米声音理解大模型MiDashengLM-7B开源

人工智能说AI TIME 2025-08-04 17:47


84日消息,小米自研声音理解大模型「MiDashengLM-7B」今天正式发布,并全量开源。小米表示,,MiDashengLM-7B速度精度上实现双突破:单样本首Token延迟仅为同类模型1/4、同显存下并发超20倍,在22个公开评测集上刷新多模态大模型最佳成绩(SOTA)。

资讯配图

报导称,MiDashengLM-7B基于Xiaomi Dasheng作为音讯编码器和Qwen2.5-Omni-7B Thinker作为自回归译码器,透过创新的通用音讯描述训练策略,实现对语音、环境声音和音乐的统一理解。

2024年,小米发布的Xiaomi Dasheng声音基座模型,据称是国际上首次突破AudioSet 50+ mAP,在HEAR Benchmark环境声、语音、音乐三大领域建立领先优势并保持至今。

Xiaomi Dasheng在小米的智慧家庭和汽车座舱等场景有超过30个落地应用。业界首发的车外唤醒防御、手机音箱全天候监控异常声音、「打个响指」环境音关联IoT控制能力,以及小米YU7上搭载的增强哨兵模式划车检测等,背后都有Xiaomi Dasheng作为核心算法的赋能。

MiDashengLM的训练资料由100%的公开资料构成,模型以宽松的Apache License 2.0发布,同时支援学术和商业应用。

小米表示,不同于Qwen2.5-Omni等未公开训练资料细节的模型,MiDashengLM完整公开了77个资料来源的详细配比,技术报告中详细介绍了从音讯编码器预训练到指令微调的全流程。

作为小米「人车家全生态」策略的关键技术,MiDashengLM透过统一理解语音、环境声与音乐的跨领域能力,不仅能听懂用户周围发生了什么事情,还能分析发现这些事情的隐藏含义,提高用户场景理解的泛化性。

基于MiDashengLM的模型透过自然语言和用户交互,为用户提更人性化的沟通和反馈,例如在用户练习唱歌或练习外语时提供发音反馈并制定针对性提升方案,又例如在用户驾驶车辆时实时对用户关于环境声音的提问做出解答。

MiDashengLM以Xiaomi Dasheng音讯编码器为核心元件,是Xiaomi Dasheng系列模型的重要升级。在目前版本的基础上,小米已着手对该模型做运算效率的进一步升级,寻求终端设备上可离线部署,并完善基于使用者自然语言提示的声音编辑等更全面的功能。

AI交流群

资讯配图





声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 小米
more
小米声音理解大模型MiDashengLM-7B开源
169元!雷军给小米车主做了把定制雨伞
新车:上汽大众新车一口价7.99万元;小米汽车7月交付超3万;智界R7/S7改款来了;小鹏P7“星芒蓝”官图公布
等了快三年!只要849的小米新机,有点东西啊
小米汽车爆出“霸王条款”,雷军天塌了
潮讯:小米浏览器接入豆包;苹果这产品停止维修;《英雄联盟手游》鸿蒙版来了;滴滴联合警方打击顺风车外挂
新车:新款奕派008售价17.36万起;比亚迪新车卖130万;小米SU7上线截图导航功能;小鹏新P7外观细节公布
二手机|3000 就能买小米超大杯了?
小米汽车这薪资是认真的吗?
放弃25万的宝马3系没买,转头提了一辆雷军的小米SU7,开了三天,车主终于说出心里话:差距明显,压根不是一个档次!
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号