破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式

新智元 2026-06-27 10:31

破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图1

  新智元报道  

破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图2

【新智元导读】多模态大模型正试图从「看画面」进化到「懂世界」。但面对动辄数小时的真实业务长视频,所有大模型玩家都撞上了一堵极其现实的高墙:视频那么长,算力那么贵,帧,到底该怎么选?


多模态大模型正试图从「看画面」进化到「懂世界」。但面对动辄数小时的真实业务长视频,所有大模型玩家都撞上了一堵极其现实的高墙:视频那么长,算力那么贵,帧,到底该怎么选?


为了妥协算力,目前的行业惯例是「均匀采样」——让模型每隔几秒机械地「睁一次眼」。但这套看似公平的逻辑,在通信等复杂领域场景中却显得极为脆弱。因为业务事件的发生,从不按照节拍器来。

破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图3
痛点:垂直业务场景的「冰与火之歌」


在专业的领域视频中,「看满全场」绝不等于「看懂细节」。关键事件在时间轴上极度「非均匀分布」,这导致均匀采样常常在两个极端里反复横跳:


  • 「久坐不动」的无效冗余: 比如专业培训、技术课程,一页教案可能长达十几分钟。如果均匀采样,大量近乎雷同的静态画面不仅白白烧掉算力,还会让大模型直接「看花眼」。
  • 「电光石火」的瞬间遗漏: 在现网割接、机房工勘等长录像中,99% 的时间可能是无意义的静默等待,但决定成败的核心动作往往转瞬即逝。均匀采样在这种场景下,无异于大海捞针,一漏致命。


这逼出了一个终极拷问:能不能让模型在不知道提问的前提下,自己判断「哪些画面最值得看」?

破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图4
破局:LFS帧选择器 给大模型装上「定位巡航」


面对这一行业共性难题,华为GTS研发部AI数据团队给出了全新解法——LFS(Learnable Frame Selector,可学习帧选择器)。


LFS打破了「按时间间隔抽帧」的刻板印象。它的核心判断极度干脆:帧的价值,只取决于它是否包含关键动作与场景变化。


近日,该项「视频关键帧选择」研究成果已正式被人工智能顶级国际会议IJCAI 2026接收。


破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图5

论文首页信息

•  论文标题:LFS: Learnable Frame Selector for Event-Aware and Temporally Diverse Video Captioning

•  论文链接:https://arxiv.org/abs/2601.14594

•  论文作者团队:华为 GTS研发部 AI数据团队


破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图6

图 1:LFS 训练与推理整体框架

破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图7
核心技术:超轻量级CNN重塑帧选择逻辑


LFS并不笨重,它的选帧闭环仅靠三招,便实现了四两拨千斤的奇效。


1. 极致轻量的时间打分:仅 126K参数的「降维打击」


LFS首先使用冻结的Long-CLIP提取帧特征,随后将其送入轻量级时间打分网络TSNet。TSNet通过一维时间CNN精准捕捉局部的动作转换,并结合全局门控调制,为每一帧生成专属的「重要性分数」。高分帧,即代表着画面正在发生关键动作或剧烈变化。


值得一提的是团队在此处极具巧思的算法设计:面对超长视频带来的性能压力,团队摒弃了调用庞大视觉模型逐帧「重度审视」的传统路线,而是另辟蹊径,直接对其文本空间的特征向量进行高速评估。


这种「降维打击」不仅让帧选择过程快如闪电,更将整个一维TSNet模型的参数量极限压缩至仅126K。这一设计在推理速度与物理显存占用上展现出了压倒性的优势,以极高的计算效率,完美实现了对海量视频帧的「沙里淘金」。


破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图8

图 2:TSNet框架图。


2. 分层 Top-K:既看「高光瞬间」,也看「完整全场」


如果只挑最高分的帧,容易导致画面全部扎堆在某一个激烈操作的时间段,LFS巧妙地将时间线划分为多个片段,在每个片段内提取高分帧。这保证了模型既抓住了重点,又没错过视频的完整生命周期。


3. 零成本接入:Caption 反馈闭环


LFS并没有人为设定「哪帧重要」的代理指标,而是直接让冻结Video-LLM 的Caption损失提供反馈。


训练时,梯度只回传到轻量的帧选择器TSNet,视频大模型本身始终保持冻结,从而将训练和工程接入成本降至最低。


为了减少Caption生成的偏见并稳定优化过程,作者采用了一种相对Caption损失,即通过从同一采样视频帧集上计算的自回归损失减去均匀采样的自回归损失:


破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图9


其中破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图10为计算的自回归损失:


破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图11

破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图12
实验结果
9大Benchmark上全面提升,8个达成SOTA


数据证明,学会「挑重点」确实能带来更鲁棒的理解力。


在真实业务基准上,搭载LFS的Qwen3-VL-8B整体准确率跃升至75%;在极其考验关键动作捕捉的VDC Detailed子项中,准确率显著提升至58%。


更硬核的是,LFS 展现出了极强的泛化能力。它生成的高质量Caption能够直接反哺Zero-shot(零样本)视频问答,在MVBench、VideoMME等9个权威开源榜单上均取得稳定且全面的性能提升,除Dream-1K外均取得SOTA表现。


破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图13

图3:LFS在9个benchmark上相对基线取得稳定提升。


破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图14

图4:LFS在开源VDC benchmark上的效果提升。

破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图15
后记


长视频理解的难点,从来不只是「视频太长」,而是有效信息稀疏、关键瞬间易被淹没。LFS的价值,正是让模型在有限算力下优先看见真正改变业务语义的画面。


这种「高性能、高命中」的特性,正精准契合行业垂域面向前沿领域的庞大多模态数据消费需求:


  • 知识沉淀更高效:将数小时的技术课程快速定位到核心讲解、关键操作与知识跳转点,让经验从视频里被提炼出来。
  • 作业审计更可信:在网络割接、配置变更等高风险流程中自动捕捉关键帧,为规范复盘、风险定位和质量追溯提供证据链。
  • 现场巡检更智能:精准识别机房工勘、设备巡检等长录像中的异常动作和状态变化,让一线现场数据沉淀为可检索、可分析的业务资产。


当AI应用从「能看见」走向「看得准、看得省、看得懂」,视频数据的价值也不再取决于堆了多少帧,而取决于能否在正确的时刻抓住正确的信息。LFS提供 的,正是一条面向行业长视频理解的高效技术路径。



秒追ASI
点赞、转发、在看一键三连
点亮星标,锁定新智元极速推送!

破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图16
破解领域视频数据理解难题,华为GTS提出关键帧动态选择新范式图17

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
华为
more
探到苹果iPhone 18 Pro/华为Mate 90/小米18新消息,我先抖点能说的
华为智驾最大对手,要上市了
法拉利前首席设计师操刀!华为智界造了一台 “科技法拉利”
我们开发的10MB小工具,上了华为荣誉墙!“要知”荣登鸿蒙应用月度之星
华为这项服务涨价4000元,你愿意付费吗?
终于!华为鸿蒙座舱要NEXT了
刚刚!华为申请 “世界” 汽车类商标
华为智驾黄金时代(2019-2021):五龙同朝,被看见的两年
华为定调Wi-Fi 7专利费,0.5美元背后是标准话语权的质变
华为秋季新车,剑指小米长城,意在比亚迪
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号