腾讯混元最新开源:一键生成电影级音效,性能表现全面SOTA

量子位 2025-08-29 08:54
腾讯混元 投稿
量子位 | 公众号 QbitAI

自带声音的视频生成模型,开源版开卷!

最新赶到的是腾讯混元:刚刚正式开源端到端的视频音效生成模型HunyuanVideo-Foley

文本描述:片段一(0-6s): footsteps;片段二(6-21s): gunshot;片段三(21-27s): Flick whoosh, Haaah.

官方介绍这是一款专为视频内容创作者打造的音频生成工具,无论是短视频创作者、电影制作人、广告创意人员,还是游戏开发者,HunyuanVideo-Foley都能提供专业级别的音频配音能力,真正实现“看懂画面、读懂文字、配准声音”。

夸张滑稽的卡通音效和真实演奏配音都不在话下。

文字描述:The sound of the number 3’s bouncing footsteps is as light and clear as glass marbles hitting the ground. Each step carries a magical sound.

文字描述:Electric guitar power chords ringing out loudly and resonating.

并且完全开源,具体链接可见文末。

专业级别视频配音自动化

视频生成领域的最新进展已能产出视觉效果逼真的内容,但缺乏同步音频,严重影响了沉浸感。

视频转音频(V2A)生成仍面临三大关键挑战 ——

为解决以上挑战,腾讯混元团队推出端到端多模态音频生成框架——HunyuanVideo-Foley,可合成与视觉动态和语义语境精确匹配的高保真音频,真正实现了专业级别的视频配音自动化。

亮点一:泛化能力好,多场景音画同步

HunyuanVideo-Foley对各种场景的视频输入都能够生成音画一致、语义对齐的音频。

人物互动、动物活动、自然景观、卡通动画、科幻等各种场景,都能生成与画面精准匹配的音频。

文本描述:With a faint sound as their hands parted, the two embraced. With soft background music.

文本描述:Creaking of old wooden windmill.

亮点二:多模态语义均衡响应,文本画面全兼顾

HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。

例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为“海浪声”时,HunyuanVideo-Foley不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声。

甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。

这种对文本描述与视频细节的双重响应,避免了“顾文失画”的问题,让生成的音频与整体场景高度契合,显著提升视频观看的沉浸感。

文本描述:The sound of waves crashing.

亮点三:专业级音频保真度

无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,HunyuanVideo-Foley均达到专业制作水准。

HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。

文字描述:A car drives over the wet road.

性能表现全面领先

资讯配图

在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先。

在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。

资讯配图

在权威评测基准MovieGen-Audio-Bench中,HunyuanVideo-Foley的核心指标相对当前最先进的MMAudio模型实现显著提升:

在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。

技术方案解读

资讯配图

1、自动化标注与数据过滤的数据管线

首先,为实现可扩展的多模态数据集构建,腾讯混元团队开发了自动化标注与数据过滤的数据管线,成功构建了约10万小时级的高质量TV2A数据集。

为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。

生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。

资讯配图

2、创新MMDiT架构,实现多模态帧级对齐及文本注入

针对模态不平衡问题,HunyuanVideo-Foley创新设计了双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,再通过交叉注意力注入文本信息。

3、引入REPA损失函数,提供语义和声学指导

HunyuanVideo-Foley采用了表征对齐(REPA)损失,通过将单流音频DiT模块的隐层嵌入与预训练自监督模型提取的音频特征对齐,显著提升音频质量。

此外,腾讯混元团队还提出了一种改进的DAC-VAE,采用满足高保真要求的48kHz采样率,并将离散表征扩展至128维连续表征,大幅提升了HunyuanVideo-Foley的音频重建能力。

在这种框架下搭建出的HunyuanVideo-Foley视频音效生成能力,正为多元行业带来高效便捷的解决方案:

项目官网:https://szczesnys.github.io/hunyuanvideo-foley/
代码仓库:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley
一键体验视频配音:https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=143
介绍页:https://hunyuan.tencent.com/video/zh?tabIndex=0

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

资讯配图


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
风格与主体终于完美融合!字节USO模型打破AI绘画‘二选一’困境,开源界新爆款诞生
开源万象 智汇星河 |WAVE SUMMIT邀您与全球开发者共筑AI未来
新机:FindX9系列续航大提升;荣耀悄悄发布千元新机;首款开源鸿蒙认证空调发布;魅族22公布1元预定权益
重磅开源!首个专为具身智能而生的大规模强化学习框架RLinf
快速回顾|Grok 2.5 模型现已开源,xAI 是否正在成为 OpenAI 最初设想的样子?
拆解二毛星链无人机:采用mosaic-X5模组,还有开源飞控、国产ESP32模组
苹果深夜开源FastVLM,首词生成速度飙升85倍,浏览器就能跑实时视频字幕,LLaVA忌惮的对手来了?
千问团队开源图像基础模型 Qwen-Image
几个受欢迎的嵌入式开源项目
腾讯开源视频音效生成模型!从海浪到引擎轰鸣,电影级音效AI一键生成
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号