
> 本文来自社区投稿
摘要
设想一条商品 AI 口播视频:主播得是指定的那张脸,手里的商品不能变形,嘴型要跟着声音走,表情和身体节奏也要自然,动作还得严格服从给定的 pose,最后整段画面还要和文本描述对得上。把这六件事拆开看,业界早就各有专精;可一旦要它们在同一段视频里同时成立,绝大多数方案就开始顾此失彼。
为了把“同时成立”做成一件可工程化的事,来自香港中文大学、字节等的研究团队提出了 OmniShow。
该工作将 Human-Object Interaction Video Generation 视为一个需要统一建模的系统问题,通过把人物、物体、音频与动作等多模态条件收进同一框架,探索多模态可控视频生成走向工业级生产的可能性。
本文我们不按"问题—方法—结果"的老套路展开,而是沿着"一道任务、三股技术合力、一把统一标尺、一组硬核数字"的脉络,把整篇论文完整讲清楚。

论文标题:OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation
收录会议:ICML 2026
项目主页:https://correr-zhou.github.io/OmniShow

1. 任务设定:把"多条件视频"当成一道协同题
OmniShow 面向的任务叫 Human-Object Interaction Video Generation。它要求在同一段人物与物体自然交互的视频里,让四类条件并行生效:text prompt 锚定全局语义与场景,reference images 固定人物身份与物体外观,audio 驱动嘴型、表情与身体节奏,pose 提供逐帧的精确动作控制。这比 text-to-video 更贴近真实生产——不是凭一句话自由发挥,而是要把多路外部约束在时序、空间、语义三个层面拧到一致。
为什么难?因为现有路线彼此割裂:R2V 守得住 reference appearance,却对声音几乎无反应;A2V 能被音频驱动,却往往只认首帧、难以同时指定人与物;pose-guided 方法擅长控动作,却在复杂交互下保不住身份与音画同步;部分 HOI 方法还要额外喂 mask、trajectory、depth、bounding box,门槛陡增。把这些子系统级联起来既臃肿,又容易在交界处崩坏。
OmniShow 的取向很明确:不做拼装,而让一个 end-to-end 模型在同一框架里学会协同。整套体系搭建在 Waver 1.0(一个 12B 的 MMDiT 视频生成模型)之上,核心原则是不破坏 base model 的生成先验,把每种条件放到它最合适的位置。

2. 技术合力之一:视觉条件,沿原生接口"贴着长"
reference images 与 pose 同属视觉信号,但角色不同——前者是外观锚点,后者是逐帧运动约束。
OmniShow 复用 Waver 1.0 原生的 channel-concat 机制把两者统一接入:经 VAE 编码后,在 temporal 维度新增 pseudo-frame tokens 专门承载 reference,pose 则与 noisy video tokens 对齐。这样一来,模型看到的输入形态与原生 I2V 几乎无异,task adaptation gap 被压到极小。在此基础上,再加一道 Reference Reconstruction Loss:pseudo-frame tokens 由同 timestep 加噪的 reference tokens 初始化,并被要求重建其语义细节,"保真"由此从被动约束升级为模型主动追逐的显式目标。

3. 技术合力之二:音频条件,用门控做局部对齐
声音是连续且带节奏的模态,硬塞进 channel 必然丢同步。
OmniShow 为它单独配了一套 Gated Local-Context Attention:先用 Wav2Vec 2.0 融合多层特征,再以 sliding window 对齐到视频 fps,masked attention 约束每个 latent frame 只 attend 对应的局部 audio tokens,建立起严格的 frame-wise 音画对应。配套的 Adaptive Gating 把 gating vector 初始化为 near-zero,让音频影响稳健生长,不至于一上来就扰乱画面。
更巧妙的是,gating vector 顺手成了一根"探针":通过观察 gate norm,团队发现音频影响集中在 dual-stream blocks,于是只在这些层注入。代价极低——模型仅增约 2.5%,合计 12.3B;作为对照,HuMo 为音频付出了 +21.4%、体量达 17B。

4. 技术合力之三:训练范式,先成"专才"再融"通才"
完整 HOIVG 样本极其稀缺——一条样本要同时满足 text、reference、audio、pose 与目标视频的质量,几乎可遇不可求。OmniShow 的应对是不等理想数据出现,而是把碎片数据盘活:从大规模 human-centric 视频池出发,经 shot segmentation 分镜,再按分辨率、美学、运动强度、OCR 分数等维度逐层过滤,最终整理出 R2V、A2V、RA2V 与高质量 RAP2V 四类异构子集,为分阶段训练备好分层素材。

训练的灵魂是 Decoupled-Then-Joint Training。
第一段 decoupled:把 R2V 与 A2V 当成两门手艺分别训出两个 specialists——训 R2V 时丢掉音频模块、专注 reference 保真;训 A2V 时把首帧作为额外条件,把声音到嘴型、表情、节奏的细粒度时间对齐练扎实。
第二段 joint,关键动作是 weight interpolation:音频模块直接从 A2V 专家继承,其余权重按 A2V / R2V = 0.6 / 0.4 线性插值融合。这个比例并非随手定——音频同步依赖细粒度时间对齐,对权重扰动远比依赖全局外观的视觉身份敏感,因此要给音频专家更高的权重去守护它。
最令人意外的,是合并那一刻的副产品:在没有任何 RA2V 专门训练之前,融合后的模型就已能同时响应 reference 与 audio——也就是说,RA2V 能力是被 weight merging "涌现"出来的。可控性这类看似非专门数据不可习得的能力,竟可经由权重融合自发出现,这为"统一框架成立"提供了直接底气。随后,融合模型先在完整 RA2V 数据上继续训练,再到高质量子集上微调;而 pose 被刻意留到最后才"上桌"——它是最强势的监督信号,过早引入会让模型过度依赖、压制对其他模态的响应,放到收尾既能享受精确动作控制又不喧宾夺主。

5. 统一标尺:HOIVG-Bench 让"协同得好不好"可量化
要证明三股力量真的彼此成全而非互相拖累,就得有一把统一的尺子。团队为此构建了 HOIVG-Bench:135 个精选样本,每个都配齐 detailed caption、人物与物体 reference、语义对齐的 audio 与 coherent pose,从 Text Alignment、Reference Consistency、Pose Accuracy、Audio-Visual Synchronization、Video Quality 五个维度打分,专门照出"pose 准但身份漂、嘴型对但商品变形"这类偏科。

6. 硬核数字:三种设置全面验证
先看定性。换着花样组合条件,OmniShow 都能稳住形象、动作与音画同步,这正是"协同"而非"妥协"的直观体现。

定量结果分三种设置看。
R2V 设置下,NexusScore 0.389 超过 VACE(0.368)与 Phantom-14B(0.366)居首,FaceSim 0.874 紧追体量更大的 Phantom-14B(0.876),并在 AES 0.468、VQ 11.12、MQ 5.885 三项拿下第一。
RA2V 设置下,Sync-C 8.612、Sync-D 7.608 双双领先 HuMo-17B 的 8.013/8.316,FaceSim 0.810、NexusScore 0.369、AES 0.465、VQ 10.86、MQ 5.554 全面占优——加入音频后,音画同步、人物与商品一致性、画质三者同步抬升。
RP2V 设置下,AKD 降至 0.174、PCK 升到 0.460,动作控制精度明显优于 VACE(0.206/0.336),NexusScore 0.418、VQ 10.28 同样领先。而这一切都出自一个仅 12.3B 的模型,音频模块只多花约 **2.5%**——这正是"系统协同"换来的性价比。

被纳入统一框架,并没有削弱单项专才。作为整套训练范式基石的 A2V 专家本身就很能打:在专评音频驱动的 EMTD 基准上,OmniShow-A2V 取得 Sync-C 6.49、AES 1.51(全场最高),IQA 2.26 仅次于 Hallo3——"先把专才练强、再合进系统"这条路径,并未牺牲音频驱动本身的硬实力。

7. 落地价值:一套系统,长出一片应用版图
因为四类条件被收进同一框架且互不打架,它们便能自由组合:人物 reference 加 audio 可以实现 audio-driven avatar;人物 reference 加 pose 控制,结合物体 reference 的替换可以做 object swapping;重新拼装人、物、声、动作则得到 video remixing,分别对应电商带货、短视频口播与互动娱乐等场景。

回看全篇,OmniShow 真正推动的,不只是某个模型的效果上限,而是一种把多模态可控视频生成"做成系统工程"的方法论:条件注入不只追求能接入、训练策略不只追求能收敛、评测不只看单项分数,而要同时回答"这些能力放在一起之后,是否还能保持一致、可控、自然、可复用"。当人、物、声、动作的同时调度从加分项变成内容生产的刚需,稀缺的从来不是又一个单点模型,而是一台能把它们同时接住、并让其协同运转的机器——OmniShow 交出的,正是这样一份完整的系统答卷。
-- 完 --
机智流推荐阅读:
1.
2.
3.
4.
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 lc|LangChain 技术交流群 code | AI Coding 交流群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 推理 | AI 推理框架交流群 Agent | Agent 技术交流群