ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图1

> 本文来自社区投稿

摘要

设想一条商品 AI 口播视频：主播得是指定的那张脸，手里的商品不能变形，嘴型要跟着声音走，表情和身体节奏也要自然，动作还得严格服从给定的 pose，最后整段画面还要和文本描述对得上。把这六件事拆开看，业界早就各有专精；可一旦要它们在同一段视频里同时成立，绝大多数方案就开始顾此失彼。

为了把“同时成立”做成一件可工程化的事，来自香港中文大学、字节等的研究团队提出了 OmniShow。

该工作将 Human-Object Interaction Video Generation 视为一个需要统一建模的系统问题，通过把人物、物体、音频与动作等多模态条件收进同一框架，探索多模态可控视频生成走向工业级生产的可能性。

本文我们不按"问题—方法—结果"的老套路展开，而是沿着"一道任务、三股技术合力、一把统一标尺、一组硬核数字"的脉络，把整篇论文完整讲清楚。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图2

论文标题：OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation
收录会议：ICML 2026
项目主页：https://correr-zhou.github.io/OmniShow

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图3 — OmniShow 用一套框架接住多类条件，并向下游延展出多种生成玩法

1. 任务设定：把"多条件视频"当成一道协同题

OmniShow 面向的任务叫 Human-Object Interaction Video Generation。它要求在同一段人物与物体自然交互的视频里，让四类条件并行生效：text prompt 锚定全局语义与场景，reference images 固定人物身份与物体外观，audio 驱动嘴型、表情与身体节奏，pose 提供逐帧的精确动作控制。这比 text-to-video 更贴近真实生产——不是凭一句话自由发挥，而是要把多路外部约束在时序、空间、语义三个层面拧到一致。

为什么难？因为现有路线彼此割裂：R2V 守得住 reference appearance，却对声音几乎无反应；A2V 能被音频驱动，却往往只认首帧、难以同时指定人与物；pose-guided 方法擅长控动作，却在复杂交互下保不住身份与音画同步；部分 HOI 方法还要额外喂 mask、trajectory、depth、bounding box，门槛陡增。把这些子系统级联起来既臃肿，又容易在交界处崩坏。

OmniShow 的取向很明确：不做拼装，而让一个 end-to-end 模型在同一框架里学会协同。整套体系搭建在 Waver 1.0（一个 12B 的 MMDiT 视频生成模型）之上，核心原则是不破坏 base model 的生成先验，把每种条件放到它最合适的位置。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图4 — OmniShow 完整 Pipeline：视觉注入、音频对齐、分阶段训练三股力量交织

2. 技术合力之一：视觉条件，沿原生接口"贴着长"

reference images 与 pose 同属视觉信号，但角色不同——前者是外观锚点，后者是逐帧运动约束。

OmniShow 复用 Waver 1.0 原生的 channel-concat 机制把两者统一接入：经 VAE 编码后，在 temporal 维度新增 pseudo-frame tokens 专门承载 reference，pose 则与 noisy video tokens 对齐。这样一来，模型看到的输入形态与原生 I2V 几乎无异，task adaptation gap 被压到极小。在此基础上，再加一道 Reference Reconstruction Loss：pseudo-frame tokens 由同 timestep 加噪的 reference tokens 初始化，并被要求重建其语义细节，"保真"由此从被动约束升级为模型主动追逐的显式目标。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图5 — 复用原生 channel-concat 接口，让 reference 与 pose 顺势接入而非另起炉灶

3. 技术合力之二：音频条件，用门控做局部对齐

声音是连续且带节奏的模态，硬塞进 channel 必然丢同步。

OmniShow 为它单独配了一套 Gated Local-Context Attention：先用 Wav2Vec 2.0 融合多层特征，再以 sliding window 对齐到视频 fps，masked attention 约束每个 latent frame 只 attend 对应的局部 audio tokens，建立起严格的 frame-wise 音画对应。配套的 Adaptive Gating 把 gating vector 初始化为 near-zero，让音频影响稳健生长，不至于一上来就扰乱画面。

更巧妙的是，gating vector 顺手成了一根"探针"：通过观察 gate norm，团队发现音频影响集中在 dual-stream blocks，于是只在这些层注入。代价极低——模型仅增约 2.5%，合计 12.3B；作为对照，HuMo 为音频付出了 +21.4%、体量达 17B。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图6 — Adaptive Gating 显示音频在各模块的影响强弱，反向指导注入位置

4. 技术合力之三：训练范式，先成"专才"再融"通才"

完整 HOIVG 样本极其稀缺——一条样本要同时满足 text、reference、audio、pose 与目标视频的质量，几乎可遇不可求。OmniShow 的应对是不等理想数据出现，而是把碎片数据盘活：从大规模 human-centric 视频池出发，经 shot segmentation 分镜，再按分辨率、美学、运动强度、OCR 分数等维度逐层过滤，最终整理出 R2V、A2V、RA2V 与高质量 RAP2V 四类异构子集，为分阶段训练备好分层素材。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图7 — 从分镜切分到多维过滤，沉淀出 R2V/A2V/RA2V/RAP2V 等异构子集

训练的灵魂是 Decoupled-Then-Joint Training。

第一段 decoupled：把 R2V 与 A2V 当成两门手艺分别训出两个 specialists——训 R2V 时丢掉音频模块、专注 reference 保真；训 A2V 时把首帧作为额外条件，把声音到嘴型、表情、节奏的细粒度时间对齐练扎实。

第二段 joint，关键动作是 weight interpolation：音频模块直接从 A2V 专家继承，其余权重按 A2V / R2V = 0.6 / 0.4 线性插值融合。这个比例并非随手定——音频同步依赖细粒度时间对齐，对权重扰动远比依赖全局外观的视觉身份敏感，因此要给音频专家更高的权重去守护它。

最令人意外的，是合并那一刻的副产品：在没有任何 RA2V 专门训练之前，融合后的模型就已能同时响应 reference 与 audio——也就是说，RA2V 能力是被 weight merging "涌现"出来的。可控性这类看似非专门数据不可习得的能力，竟可经由权重融合自发出现，这为"统一框架成立"提供了直接底气。随后，融合模型先在完整 RA2V 数据上继续训练，再到高质量子集上微调；而 pose 被刻意留到最后才"上桌"——它是最强势的监督信号，过早引入会让模型过度依赖、压制对其他模态的响应，放到收尾既能享受精确动作控制又不喧宾夺主。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图8 — 两个专家合并后，未经 RA2V 训练即涌现 joint reference-audio 生成能力

5. 统一标尺：HOIVG-Bench 让"协同得好不好"可量化

要证明三股力量真的彼此成全而非互相拖累，就得有一把统一的尺子。团队为此构建了 HOIVG-Bench：135 个精选样本，每个都配齐 detailed caption、人物与物体 reference、语义对齐的 audio 与 coherent pose，从 Text Alignment、Reference Consistency、Pose Accuracy、Audio-Visual Synchronization、Video Quality 五个维度打分，专门照出"pose 准但身份漂、嘴型对但商品变形"这类偏科。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图9 — HOIVG-Bench 的统计分布与多条件样例

6. 硬核数字：三种设置全面验证

先看定性。换着花样组合条件，OmniShow 都能稳住形象、动作与音画同步，这正是"协同"而非"妥协"的直观体现。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图10 — 不同条件组合下的定性对比，形象、动作与音画同步均稳定

定量结果分三种设置看。

R2V 设置下，NexusScore 0.389 超过 VACE（0.368）与 Phantom-14B（0.366）居首，FaceSim 0.874 紧追体量更大的 Phantom-14B（0.876），并在 AES 0.468、VQ 11.12、MQ 5.885 三项拿下第一。

RA2V 设置下，Sync-C 8.612、Sync-D 7.608 双双领先 HuMo-17B 的 8.013/8.316，FaceSim 0.810、NexusScore 0.369、AES 0.465、VQ 10.86、MQ 5.554 全面占优——加入音频后，音画同步、人物与商品一致性、画质三者同步抬升。

RP2V 设置下，AKD 降至 0.174、PCK 升到 0.460，动作控制精度明显优于 VACE（0.206/0.336），NexusScore 0.418、VQ 10.28 同样领先。而这一切都出自一个仅 12.3B 的模型，音频模块只多花约 **2.5%**——这正是"系统协同"换来的性价比。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图11 — HOIVG-Bench 主实验结果，覆盖 R2V/RA2V/RP2V 多种条件设置

被纳入统一框架，并没有削弱单项专才。作为整套训练范式基石的 A2V 专家本身就很能打：在专评音频驱动的 EMTD 基准上，OmniShow-A2V 取得 Sync-C 6.49、AES 1.51（全场最高），IQA 2.26 仅次于 Hallo3——"先把专才练强、再合进系统"这条路径，并未牺牲音频驱动本身的硬实力。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图12 — OmniShow-A2V 在 EMTD 基准上的结果，验证 audio-driven 能力依旧扎实

7. 落地价值：一套系统，长出一片应用版图

因为四类条件被收进同一框架且互不打架，它们便能自由组合：人物 reference 加 audio 可以实现 audio-driven avatar；人物 reference 加 pose 控制，结合物体 reference 的替换可以做 object swapping；重新拼装人、物、声、动作则得到 video remixing，分别对应电商带货、短视频口播与互动娱乐等场景。

ICML 2026 | 一个模型同时调度人、物、声、动作，多模态可控视频生成迈进工业级！图13 — 统一框架延展出 audio-driven avatars、object swapping、video remixing 等应用

回看全篇，OmniShow 真正推动的，不只是某个模型的效果上限，而是一种把多模态可控视频生成"做成系统工程"的方法论：条件注入不只追求能接入、训练策略不只追求能收敛、评测不只看单项分数，而要同时回答"这些能力放在一起之后，是否还能保持一致、可控、自然、可复用"。当人、物、声、动作的同时调度从加分项变成内容生产的刚需，稀缺的从来不是又一个单点模型，而是一台能把它们同时接住、并让其协同运转的机器——OmniShow 交出的，正是这样一份完整的系统答卷。

-- 完 --

加入机智流 Pro，1 天一块钱，AI 能力指数级增长时代，不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。

机智流推荐阅读：

1. ‍

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有与、、、、等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
lc｜LangChain 技术交流群
code | AI Coding 交流群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
推理 | AI 推理框架交流群
Agent | Agent 技术交流群