4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型

量子位 2026-06-15 13:56
允中 发自 凹非寺
量子位 | 公众号 QbitAI

“先来一段蝉鸣,然后吉他声切入。”

对于这样一段看似简单的文字指令,现有的音频大模型不仅“听不懂”(搞错顺序或数量),而且“出得慢”(生成10秒声音,往往需要等待几秒甚至十几秒)。

这成了AI音频从“玩具”走向专业工作流和实时交互的最大绊脚石。

为了解决这一行业痛点,Noiz AI联合香港科技大学、清华大学等机构,正式推出了支持Anything-to-Audio的极速音频生成大模型AudioX-Turbo

AudioX-Turbo不仅仅是一个能处理多种模态输入的生成器,更是将矛头直指“极速推理”“精准可控”两大难题。

通过分布匹配蒸馏和对抗蒸馏,AudioX-Turbo将原本50-200步的扩散生成过程暴减至4步,模型前向次数骤降约25倍;

再配合全新标注的920万量级“强指令”语料,模型终于“听懂了时间戳”。

而且,推理代码、训练代码、模型权重等全部开源

论文与项目页面:https://zeyuet.github.io/AudioX-Turbo/
项目代码:https://github.com/NoizAI/AudioX-Turbo

核心突破一:用4步打败100步,单卡0.24秒出声

现有的主流音频模型,如MMAudio,Stable Audio Open,它们多依赖Diffusion(扩散)或Flow Matching,通常需要几十到上百步迭代。

AudioX-Turbo的解法是分布匹配对抗蒸馏

1. 原生多模态骨干打底

全面采用原生适合多模态融合的Multimodal Diffusion Transformer (MMDiT)作为模型骨架,配合MAF模块从零训练了2.7B参数,确保了极高的音画同频与跨模态控制力。

4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型图1
图1.预训练阶段

2. Turbo蒸馏加速

基于Flow Matching框架,引入分布匹配蒸馏(DMD)对抗蒸馏将模型蒸馏至4步,同时应用CFG蒸馏去掉了CFG引入的额外NFE开销。

“简单说,就像把一幅需要涂100遍才能完成的画,提炼成只涂4遍的模板——AudioX-Turbo用蒸馏技术把这个‘模板’提炼出来了。”

4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型图2
图2. 分布匹配对抗蒸馏

结果惊人,AudioX-Turbo仅需4个采样步数就逼近Teacher模型100步的音质,再得益于扩散判别器,学生模型输出和真实样本的对抗训练,使少步模型在部分性能指标上反超了100步教师模型。

单张RTX 4090上,生成10秒音频仅需0.24秒(RTF仅0.02),打开了实时音频生成的想象空间。

4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型图3
图3. Audiox-Turbo对比其它模型的全面评测

核心突破二:数据大换血,920万样本让模型“听懂人话”

之前很多音频模型无法精确控制,根源在于数据里的文本标签太“糊”(比如只有简单的环境音概括)。

为此,Noiz AI与港科大团队专门打造了超大规模的多模态音频数据集IF-caps-Pro,总规模约920万

团队搭建了“大模型级联标注”的方案——

先构建海量高质量视频-音频对,然后用Gemini 2.5 Pro模型生成带时间戳、乐器、事件数量的结构化模板,再用Qwen2-Audio进行大规模扩写。

喂给模型的数据从“模糊的摘要”变成了“带有精确时间轴的剧本”

4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型图4
图4. 数据构造流程

与此同时,研究团队意外发现,文本标签写得越细,模型不仅文本生音频效果变好,连带着“只看无声视频配音”时的对齐度也跟着大幅提升。

霸榜级的实验表现

在经典的AudioCaps、MusicCaps等测试集中,4步的AudioX-Turbo模型在核心音质指标上打败或战平了需要50-200步的众多基线模型。

而为了评测模型的指令跟随能力,团队构造了专门的benchmark T2A-bench

测试结果显示,在针对声音类别、数量、时间戳和先后顺序的评测中,AudioX-Turbo的效果对比其它基线方法呈现出碾压态势(部分指标较基线提升超一倍)。

4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型图5
图5. AudioX-Turbo的指令跟随能力

总结与传送门

AudioX-Turbo三大亮点

该项目所有训练代码及模型权重,已全部开源

Noiz AI与港科大、清华的这项联合工作,证明了音频大模型完全可以打破“慢吞吞”和“不受控”的刻板印象。

随着4步极速推理的实现,互动剧配音、游戏引擎实时拟音,甚至是AI直播伴奏,都将变得触手可及。

而这正是Noiz AI正在推进的方向——让音效、有声内容制作、实时互动语音,都能实时重建。

论文信息:
论文标题:AudioX-Turbo: A Unified Framework for Efficient Anything-to-Audio Generation
核心团队:Noiz AI、香港科技大学、清华大学
项目主页:https://zeyuet.github.io/AudioX-Turbo/

*本文系量子位获授权刊载,观点仅为原作者所有。


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源 音频 大模型
more
对话智源黄铁军、王仲远:世界模型是具身智能突破关键,AI自进化后将不可控
离谱,AI 圈都在疯转一只不存在的「法国胖猫」
字节跳动的 AI 账本:豆包每天不足百万收入、Seedance 毛利 70%
超20亿!智谱投的AI云厂商融资了,跟阿里火山百度“抢肉”吃
抢先实测AI版支付宝!20年最大改版,首页砍没了
全球EDA市场规模预计到2034年将达2911 亿人民币,AI for EDA将成关键
【“智改数转”在行动】5G智造+AI质检,“数”造更完美的白酒玻瓶
不儿,罗永浩、胡彦斌都来参加这场AI大赛了啊
SpaceX凭太空AI拿下2.5万亿市值,马斯克的野心击碎了中国商业航天追赶梦
Kimi 提速260 tok/s、vLLM 0.23上新|机智流AI日报6/15
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号