颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件

AI生成未来 2025-10-25 00:01
点击下方卡片,关注“AI生成未来

👇扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future

颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图1

作者:Yinan Chen

解读:AI生成未来
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图2
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图3
  • 项目主页: https://ryanchenyn.github.io/projects/IVEBench
  • 论文: https://arxiv.org/abs/2510.11647
  • 代码: https://github.com/RyanChenYN/IVEBench
  • 数据集: https://huggingface.co/datasets/Coraxor/IVEBench 
  • IVEBench Leaderboard: https://ryanchenyn.github.io/projects/IVEBench/

🔥作者保持对最新Instruction-based视频编辑方法的跟踪,并更新这些方法结果到IVEBench Leaderboard上。欢迎大家使用IVEBench进行视频编辑方法测试!

亮点总结

颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图4
图1:IVEBench基本概述
  1. 首个专为指令驱动视频编辑设计的综合 benchmark:本文提出了 IVEBench,一个覆盖最全面、评测维度最完善的现代视频编辑基准套件。它以自然语言指令驱动评测,数据集涵盖7个语义维度8类编辑任务35个子任务,为业界与学界提供标准化的视频编辑模型对比平台。

  2. 涵盖600条高质量视频的多样化数据库:IVEBench 数据源来自多个开源网站和开源数据集,并通过自动与人工两阶段过滤,确保了高分辨率与清晰度,数据集涵盖7个语义维度和30个主题。视频长度范围从 32 帧到 1024 帧,分为两个子集,可全面测试短视频与长序列视频上模型性能。

  3. 全面、丰富的视频编辑任务体系:

    IVEBench 精心构建了 8 大类 35 个子类视频编辑任务,在传统编辑任务基础上增加了主体动作、视觉特效、镜头角度与运动等视频专属的编辑类型,并且覆盖不同粒度层级,涉及单主体与多主体等多种编辑指令。

  4. 多维度、结合MLLM的系统化评估体系:基于视频质量指令一致性、与视频保真度三维评估体系,IVEBench 综合使用传统指标与多模态大模型(MLLM)评估,建立了12项定量指标与统一加权总评分机制,实现与人类评价高度一致的自动评估。

  5. SoTA 模型全面测试,并持续更新:IVEBench在主流的指令驱动视频编辑模型上进行全面测试,结果表明:IVEBench 的多维评分能精确反映模型各方面的性能表现。更多更新的指令驱动视频编辑模型的评测也会不断更新。


1. 研究动机

  • 现有基准的局限:主流的视频编辑方法已转向指令驱动型,但当前视频编辑 benchmark 主要针对需要source prompt和target prompt输入的视频编辑类型,难以适用于指令驱动型视频编辑方法。
  • 视频编辑任务局限于图像编辑的传统类型:当前多数视频编辑 benchmark 的任务设计仍停留在从图像编辑迁移而来的“静态变换”范式,例如主体替换、风格修改、色彩调整等任务,这些类型未能充分体现视频编辑特有的时序性、运动性和空间一致性特征。在这些评测中,模型往往只需完成帧级别的视觉变换,而无需理解视频的动态语义及连续帧之间的关联,导致评测结果无法真实反映模型在运动理解、视角变换、相机运动等动态任务上的能力。

2. 关键发现

  1. 编辑后视频的质量会同时影响视频保真度:模型输出出现的包括语义渗透、边界模糊、纹理闪烁等伪影不仅降低了每帧图像的质量,也导致了视频保真度显著下降,这些伪影问题需要重点关注。
  2. 现有视频编辑模型的任务覆盖度过低:当前主流指令驱动视频编辑模型支持的任务范围过于狭窄,模型往往依赖静态特征变化进行训练,缺乏对主体动作、相机运动、相机视角的显式建模能力。
  3. 视频编辑方法在支持分辨率上急需提升:现有指令驱动视频编辑方法通常在512x512分辨率下运行,这远低于现实世界用户内容标准, 同时低分辨率也限制了视觉保真度,导致诸如纹理模糊和边缘退化等伪影。

3. 数据与任务设计

  1. 多样化视频数据库(600条)
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图5
图2. IVEBench的数据获取与处理流程包括: 1) 精选 600 个高质量多样化视频。2) 大模型生成结合人工检查的编辑指令生成流程。
  • 来源:Pexels 、 Mixkit 、 UltraVideo 、 OpenHumanVid
  • 分辨率:720P-8K
  • 帧长:32–1024帧
  • 语义维度:主题、情绪、主体、动作、时间、视角、场景
  1. 全面的编辑任务(8类35子类600条编辑指令)包括:风格编辑、属性编辑、主体编辑、数量编辑、主体动作编辑、视觉特效编辑、镜头角度与镜头运动编辑。 所有编辑指令均由 Doubao-1.5-pro 生成并经人工审核,确保清晰、均衡且难度覆盖简单到复杂。
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图6
图3. IVEBench的统计分布。

4. 实验结果

定量结果:

被评估的方法均表现出较好的帧间一致性。然而,这些方法的总分都不超过 0.7,在指令遵循度、视频保真度和单帧图像质量上都有很大提升空间。

颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图7
表2. 不同视频编辑方法在IVEBench上的性能比较。数值越高表示性能越好。†表示某些高帧率视频在推理过程中因内存不足问题而失败。‡表示该方法有固定的最大帧数,低于源视频的最大长度。
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图8
图4:视频编辑模型的 IVEBench 评估结果:四种视频编辑模型在 12 项 IVEBench 指标上的可视化结果。为便于更清晰的比较,每个维度的结果都进行了归一化处理。

定性结果:

InsV2V 在大多数类别中表现出相对均衡的性能,即使在较长序列中也能保持较高的语义保真度和运动保真度。然而,其保守策略有时会导致编辑不足,从而在指令满意度方面得分较低。AnyV2V 在较简单的风格和属性编辑任务中表现出较强的指令遵从性,但在困难的编辑任务中则表现不佳。VACE并非原生指令驱动视频编辑模型,但实现了合理的时间平滑性和高分辨率输出,然而,其有限的最大帧长度限制了其适用性,并且与原生指令驱动视频编辑模型相比,其在指令遵从性方面的整体表现仍不令人满意。

颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图9
图5:主流指令驱动视频编辑方法的定性比较。
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图10
图6:主流指令驱动视频编辑方法输出对比可视化。这里将视频的第一帧、中间帧和最后一帧拼接起来,以方便比较不同模型在整体视频上的表现。

5. 未来工作

  1. 丰富 benchmark 规模与任务类型:后续计划在源视频规模和编辑子类别上进一部扩展数据,提升 benchmark 的覆盖性与挑战性。

  2. 指标模型更新升级:计划将指标使用的模型如Qwen2.5-VL 、Grounding DINO等根据最新模型性能进行更新,进一步提高指标的准确性。

  3. 建立社区协作的 ELO 评价体系:

    后续计划在视频编辑任务上与社区共同开展 ELO 评分收集工作,通过大规模用户偏好评测,持续优化不同模型在视频编辑场景下的相对排名与主观质量评估,从而构建更符合人类感知的 Benchmark 排名体系。

参考文献

[1] IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

技术交流社区免费开放

这是一个👉️完全免费👈️的高质量AIGC技术社群。

涉及 内容成/理解(图像、视频、语音、文本、3D/4D等)、大模型、具身智能、自动驾驶、深度学习及传统视觉等多个不同方向。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得到认真对待。

颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图11
欢迎扫码免费加入
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图12



技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件图13

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
驱动
more
专访-悉识科技:光学膜厚测量国产化,算法创新驱动产业升级
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件
充电早报:智融科技3C1A全套 TFT屏显方案;真我GT8 Pro 充电评测;德氪微发布耐压毫米波隔离驱动芯片DKV56系列
“AI赋能+线下深耕”双轮驱动促出海助力企业开拓国际市场
AI驱动量子化学计算!4100万核心国产超算取得世界级突破!
快讯|美国公司推出Yogi硅胶人形机器人;TetherIA打造欠驱动开源机械手;2025中国机器人大赛暨RoboCup落幕等
2025年IP趣玩食品行业的驱动因素和发展趋势
中国婴儿特医食品行业的驱动因素及未来趋势
英飞凌全新6EDL04系列栅极驱动器:更小TSSOP-25封装亮相
倒计时1天!“创新驱动 芯耀未来”2025 CPCA Show Plus即将盛大启幕!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号