可灵击穿「多模态视频生成」，HuMo大一统“文本+图像+音频”，斩获多项SOTA!

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

项目主页-https://phantom-video.github.io/HuMo/

代码链接-https://github.com/Phantom-video/HuMo

论文链接-https://arxiv.org/abs/2509.08519

为什么需要这个算法？--以人为中心的视频生成（HCVG）方法寻求从多模态输入（包括文本、图像和音频）合成人类视频。当前主要存在两个挑战：1）现有方法难以有效协调这些异构模式：具有成对三重条件的训练数据稀缺；2）难以将受试者保存和视听同步与多模式输入的子任务进行协作。

这个算法能做什么？--HuMo是可灵团队发布一个多模态HCVG框架，支持"文本+图像"、"文本+音频"、“文本+图像+音频”等灵活多模态输入组合。

这个算法效果如何？--大量实验结果表明：HuMo在HCVG任务上超越了最先进的方法，为协作多模态条件HCVG建立了一个统一的框架。

01-HuMo核心优势

快手可灵团队提出HuMo，一个用于协同多模态控制的统一HCVG（以人为中心的视频生成）框架。作者构建了一个具有多样化和成对文本、参考图像和音频的高质量数据集。作者提出了一种具有任务特定策略的两阶段渐进式多模式训练范式。

对于受试者保存任务，为了保持基础模型的快速跟踪和视觉生成能力，作者采用了微创图像注入策略。对于视听同步任务，除了通常采用的音频交叉关注层外，作者还提出了一种通过预测来引导模型将音频与面部区域关联的策略。

为了联合学习多模态输入的可控制性，在先前获得的能力的基础上，作者逐步纳入了视听同步任务。在推理过程中，为了实现灵活和细粒度的多模态控制，作者设计了一种时间自适应的无分类器引导策略，该策略在去噪步骤中动态调整引导权重。

02-HuMo变现场景

02.01-根据“文本+图像”生成视频

如上面的视频所示，该方法可以根据“输入的文本+参考图像”生成高质量、文本对齐和主题一致的视频。

02.02-根据“文本+语音”生成视频

上面的视频展示了该方法可以根据"输入的文本+语音"生成文本对齐和音频同步的视频。

02.03-根据“文本+图像+语音”生成视频

上面的视频展示了该方法可以根据“输入的文本+图像+语音”生成一些文本对齐、主题一致和音频同步的视频。

02.04-文本控制/编辑

如上面的视频所示，给定相同的主题参考图像和不同的文本提示词，该方法可以很好的实现文本与图像协同可控性。

03-HuMo上手指南

03.01-搭建运行环境

# 步骤1-创建虚拟环境 conda create -n humo python=3.11conda activate humo
# 步骤2-安装三方依赖包 pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124pip install flash_attn==2.6.3pip install -r requirements.txtconda install -c conda-forge ffmpeg

03.02-运行样例Demo

# 步骤1-下载HF模型 huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./weights/Wan2.1-T2V-1.3Bhuggingface-cli download bytedance-research/HuMo --local-dir ./weights/HuMohuggingface-cli download openai/whisper-large-v3 --local-dir ./weights/whisper-large-v3huggingface-cli download huangjackson/Kim_Vocal_2 --local-dir ./weights/audio_separator
# 步骤2-文本+语音-->视频生成bash infer_ta.sh
# 步骤3-文本+语音+图像-->视频生成 bash infer_tia.sh