腾讯开源视频音效生成模型！从海浪到引擎轰鸣，电影级音效AI一键生成

资讯配图

汽车驶过湿路、风车吱呀作响，腾讯混元大模型可以为视频配音效了。

作者 | 李水青

编辑 | 心缘

智东西8月28日消息，今日，腾讯混元开源端到端视频音效生成模型HunyuanVideo-Foley。基于该模型，用户只需输入视频和文字，就能为视频匹配电影级音效。

比如，用户输入一个视频和文本描述“With a faint sound as their hands parted, the two embraced, a soft ‘mm’ escaping between them.（两人相离时，发出一声轻微的响动，随即相拥在一起，一声轻柔的 “mm” 从彼此间溢出。）”，就会输出以下视频。

用户也可以通过Hunyuan-Foley生成流行的ASMR（自发性知觉经络反应）类音频，体验“听觉爽感”，比如木头切开的声音。

由混元团队公布的测评情况可知，HunyuanVideo-Foley在音频保真度、视觉语义对齐、时间对齐、分布匹配等方面均达到全新的SOTA（最佳水平）。

该模型主要要以下三大核心亮点：

1、多场景音视频同步：支持生成与复杂视频场景同步、语义一致的高质量音频，增强影视、游戏应用的真实感和沉浸感。

2、多模态语义平衡：智能平衡视觉与文本信息分析，综合编排音效元素，避免片面生成，满足个性化配音需求。

3、高保真音频输出：自研48kHz音频VAE完美重构音效、音乐、人声，达到专业级音频生成品质。

即日起，用户可在GitHub、HuggingFace下载模型，技术报告已公布。

GitHub地址：

https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

Hugging Face地址：

https://huggingface.co/tencent/HunyuanVideo-Foley

技术报告地址：

https://arxiv.org/abs/2508.16930

01.

突破音效生成的三大难题

主体可泛化，声音更细腻

HunyuanVideo-Foley的提升聚焦解决现有的音频生成技术的泛化能力不足、语义响应不均衡、音质粗糙等痛点。下面是混元官方公布的一系列Demo。

在泛化能力方面，该模型可适配人物、动物、自然景观、卡通动画等各类视频，生成与画面精准匹配的音频。

例如输入文本描述：Splash of water and loud thud as person hits the surface.（水花飞溅，伴随着人砸向水面时沉闷的巨响。）

输出视频：

文本描述：Rustling and crunching of leaves and twigs under the fox kit's paws.（小狐狸的爪子踩过树叶与细枝，发出沙沙的摩擦声与清脆的碎裂声。）

输出视频：

文本描述：Creaking of old wooden windmill.（老旧木制风车发出的吱呀声。）

输出视频：

文本描述：Electric guitar power chords ringing out loudly and resonating.（电吉他强力和弦奏响，声音洪亮，余韵回荡。）

输出视频：

在多模态语义均衡响应方面，HunyuanVideo-Foley既能理解视频画面，又能结合文字描述，自动平衡不同信息源，生成层次丰富的复合音效。

例如，当输入一段包含海浪、沙滩人群及海鸥的视频，且文字描述为 “海浪声” 时，HunyuanVideo-Foley 不仅能精准生成与海浪画面同步的波浪音效，响应文本需求，还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声，甚至根据场景氛围自然融入轻柔的背景环境音，形成层次丰富的复合音效。

输出视频：

在专业级音频保真度方面，HunyuanVideo-Foley显著提升了音频生成质量和稳定性，极大程度抑制了底噪和不一致的音效瑕疵的出现，保证了专业级的音频保真度。

比如输入文字描述：A car drives over the wet road.（一辆汽车驶过潮湿的路面。）

输出视频：

可以看到，无论是汽车驶过湿滑路面的细节质感，还是环境音的空间层次，均达到不错的效果。

文字描述：Engine revving loudly and accelerating.（引擎轰然轰鸣，随即加速运转。）

输出视频：

HunyuanVideo-Foley生成的音频能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感，甚至通过声场变化体现车辆加速时的空间位移感。

02.

10万小时高质量数据集支持

拿下多项行业SOTA

TV2A （文本-视频-音频）任务是一项复杂的多模态生成挑战，需要大规模、高质量的数据集。

为实现可扩展的多模态数据集构建，混元团队开发了一个全面的数据处理管道，能够系统地识别并排除不合适的内容，构建了约10万小时级的高质量TV2A数据集，为模型训练提供了强大支撑，从而提供强大且可泛化的音频生成能力。

HunyuanVideo-Foley混合架构，具有多模态和单模态Transformer模块：

多模态Transformer模块：同时处理视音频流。

单模态Transformer模块：专注于音频流细化。

视觉编码：预训练编码器从视频帧中提取视觉特征。

文本处理：通过预训练文本编码器提取语义特征。

音频编码：具有高斯噪声扰动的潜在表示。

时间对齐：基于同步器的帧级同步与门控调制。

在权威评测基准MovieGen-Audio-Bench测试集中，HunyuanVideo-Foley的核心指标相对当前最先进的MMAudio模型实现显著提升。

其中音频质量指标 PQ（AudioBox-Aesthetics）从6.17提升至6.59，视觉语义对齐指标IB从0.27提升至0.35；在时序对齐指标DeSync上从0.80优化至0.74，均达到当前SOTA水平。

在主观评测中，HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分（满分5分），展现了接近专业水准的音频生成效果。

03.

结语：从能看到能听

无声AI视频成为历史

HunyuanVideo-Foley的推出，标志着混元在音视频生成领域迈入新的阶段，不仅直击过往音效生成的泛化不足与失真痛点，更实现了高质量、多模态、沉浸式的体验。

从影视制作到游戏开发，再到沉浸式内容创作，这一技术突破或将深刻改变音频产业链，推动多模态生成应用走向新的高度。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）