可灵击穿「多模态视频生成」,HuMo大一统“文本+图像+音频”,斩获多项SOTA!

AI产品汇 2025-09-15 07:50

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区,

用心写好每一篇文章!



项目主页-https://phantom-video.github.io/HuMo/

代码链接-https://github.com/Phantom-video/HuMo

论文链接-https://arxiv.org/abs/2509.08519



为什么需要这个算法?--以人为中心的视频生成(HCVG)方法寻求从多模态输入(包括文本、图像和音频)合成人类视频。当前主要存在两个挑战:1)现有方法难以有效协调这些异构模式:具有成对三重条件的训练数据稀缺;2)难以将受试者保存和视听同步与多模式输入的子任务进行协作。
这个算法能做什么?--HuMo是可灵团队发布一个多模态HCVG框架,支持"文本+图像"、"文本+音频"、“文本+图像+音频”等灵活多模态输入组合。
这个算法效果如何?--大量实验结果表明:HuMo在HCVG任务上超越了最先进的方法,为协作多模态条件HCVG建立了一个统一的框架。


资讯配图


01-HuMo核心优势

    快手可灵团队提出HuMo,一个用于协同多模态控制的统一HCVG(以人为中心的视频生成)框架。作者构建了一个具有多样化和成对文本、参考图像和音频的高质量数据集。作者提出了一种具有任务特定策略的两阶段渐进式多模式训练范式。

    对于受试者保存任务,为了保持基础模型的快速跟踪和视觉生成能力,作者采用了微创图像注入策略。对于视听同步任务,除了通常采用的音频交叉关注层外,作者还提出了一种通过预测来引导模型将音频与面部区域关联的策略。

    为了联合学习多模态输入的可控制性,在先前获得的能力的基础上,作者逐步纳入了视听同步任务。在推理过程中,为了实现灵活和细粒度的多模态控制,作者设计了一种时间自适应的无分类器引导策略,该策略在去噪步骤中动态调整引导权重。

02-HuMo变现场景

02.01-根据“文本+图像”生成视频
    如上面的视频所示,该方法可以根据“输入的文本+参考图像”生成高质量、文本对齐和主题一致的视频。
02.02-根据“文本+语音”生成视频
    上面的视频展示了该方法可以根据"输入的文本+语音"生成文本对齐和音频同步的视频。
02.03-根据“文本+图像+语音”生成视频
    上面的视频展示了该方法可以根据“输入的文本+图像+语音”生成一些文本对齐、主题一致和音频同步的视频。
02.04-文本控制/编辑
    如上面的视频所示,给定相同的主题参考图像和不同的文本提示词,该方法可以很好的实现文本与图像协同可控性。

03-HuMo上手指南

资讯配图
03.01-搭建运行环境
# 步骤1-创建虚拟环境 conda create -n humo python=3.11conda activate humo
# 步骤2-安装三方依赖包 pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124pip install flash_attn==2.6.3pip install -r requirements.txtconda install -c conda-forge ffmpeg
03.02-运行样例Demo
# 步骤1-下载HF模型 huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./weights/Wan2.1-T2V-1.3Bhuggingface-cli download bytedance-research/HuMo --local-dir ./weights/HuMohuggingface-cli download openai/whisper-large-v3 --local-dir ./weights/whisper-large-v3huggingface-cli download huangjackson/Kim_Vocal_2 --local-dir ./weights/audio_separator
# 步骤2-文本+语音-->视频生成bash infer_ta.sh
# 步骤3-文本+语音+图像-->视频生成 bash infer_tia.sh

04-HuMo性能评估

04.01-主观效果评估
    上面的视频展示了该方法与多个SOTA的视频生成方法(Kling 1.6、MAGREF、HunyuanCustom、Phantom)在相同的输入“文本+图片”下的视频生成结果。通过观察与分析,我们可以发现:该方法生成的视频一致性更强一些,能够更好的遵循参考文字与图片内容。
04.02-客观指标评估
资讯配图
    上表展示了该方法与多个SOTA的视频生成方法在以文本和参考图像为输入的目标保持任务上面的定量比较结果。通过观察与分析,我们可以发现:17B参数量的该模型在“视频质量、文本跟随、目标一致性”等多个维度上面都获得了最高的得分,远优于其它方法。



关注我,AI热点早知道,AI算法早精通,AI产品早上线!



资讯配图

禁止私自转载,需要转载请先征求我的同意!

欢迎你的加入,让我们一起交流、讨论与成长!

若二维码失效:关注公众号--》交流分享--》联系我们

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
音频
more
AVE Speech:大规模音频、唇部视频与肌电信号的中文多模态语音数据集
赛轮思AI与DSP Concepts携手合作,革新车载音频体验
鸿蒙让好音乐始终在身边,华为音乐深度解析高品质音频密码
XR空间音频革命:苹果、三星推出新技术,ASAF成Vision Pro最佳搭档
【AI】免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频
一键实现PPT演讲自由!「解说音频+视频」同步生成,效果逼近真人
小红书智创音频技术团队:SOTA对话生成模型FireRedTTS-2来了,轻松做出AI播客!
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!
马恒达(Mahindra)选择赛轮思音频AI为其电动原生SUV打造车载语音交互功能
首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号