SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic

机器之心 2026-06-26 13:09
SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图1


论文作者均来自北京大学王选计算机研究所,第一作者为吴将凯博士,第二作者为本科生任致远,第三、第四作者为博士生钟俊权、刘黎明,通讯作者为张行功副教授。


从 ChatGPT、Gemini Live、豆包到智能眼镜,AI 正在从「文字聊天」走向「边看边聊」。但当视频通话的另一端不再是人,而是部署在云端的多模态大模型时,传统实时视频通信系统遇到了一个根本错位:它仍在努力让「人眼看得更舒服」,而新的目标其实是让「AI 答得更准确、响应更及时」。


北京大学团队提出 Artic,一套面向 AI 的实时视频通信框架,系统性重构了 AI 视频助手场景下的码率自适应、视频编码、反馈控制和评测基准。实验结果显示,在真实移动上行网络轨迹下,Artic 相比现有框架显著提升 15.12% 准确率,并降低 135.31 ms 延迟。


一句话概括:Artic 不是让视频一味更清晰,而是让网络传输学会服务大模型的「理解状态」。


SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图2

图 1:AI 视频助手是一种新的实时通信范式,用户将视频和音频传给云端大模型,AI 返回语音或文本响应。


SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图3



引言:视频通信,

正在从「给人看」转向「给 AI 理解」


过去二十多年,实时视频通信的优化目标非常清楚:让人看得清、看得流畅、不要卡顿。因此,无论是拥塞控制、码率自适应,还是视频编码,大多围绕画面质量(PSNR、SSIM、VMAF)、帧率、分辨率和卡顿率等「人眼体验」指标展开。


但 AI 视频助手改变了这个前提。用户拿着手机或智能眼镜走在路上,摄像头持续把第一视角画面上传到云端大模型;模型并不需要「欣赏」整个视频,它只需要抓住足够回答当前问题的关键信息。例如用户在商场里问「这个商品是什么」、在展馆里问「这块导览牌写了什么」,模型真正需要看清的是商品标签、导览牌文字等局部细节,而不是包含背景区域的整张画面。


这带来两个直接变化。第一,体验质量的核心指标变了:传统实时视频通信关心的是人眼感知画质、流畅度和稳定性;AI 视频助手更关心模型回答是否正确、是否能及时触发响应。因此,视频允许在非关键区域变糊或不流畅,但关键区域一旦看不清或卡顿,就会直接变成回答错误或响应滞后。


第二,网络条件也变了。AI 视频助手常运行在手机、智能眼镜等移动终端上,服务导览、购物识物等随身场景。用户边走边用时,终端位置、朝向和人体遮挡关系持续变化,还可能在不同 Wi-Fi 接入点、不同基站覆盖区域,或 Wi-Fi 与移动网络之间切换;这些物理链路和接入路径变化会直接改变上行信道质量。因此,相比视频会议、远程桌面等更偏静态使用的传统实时视频通信场景,AI 视频助手面对的上行带宽波动更大、发生得更频繁。


论文中的生产原型测量给出了一个直观例子:当用户从稳定环境进入电梯时,可用带宽在约 1.5 秒内从 5 Mbps 跌到 1.23 Mbps。传统实时视频通信的拥塞控制来不及收缩码率,造成最高 1389 ms 的延迟尖峰;随后码率被大幅压低,又会让关键视觉信息变糊,直接导致大模型回答错误。


SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图4

图 2:真实移动场景中,带宽突降会导致传统实时视频通信出现严重延迟尖峰。


SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图5

图 3:当关键区域被低码率压糊,大模型可能从正确回答变成错误回答。


研究内容:Artic 如何让通信系统「懂 AI」


Artic 的核心思想,是把大模型的感知状态纳入实时通信闭环(整体架构如图 4 所示)。传统实时视频通信看到网络有余量,就倾向于把码率继续拉高;Artic 则会追问另一个问题:当前视频质量对模型回答来说是否已经足够?如果答案是足够,就不必继续填满带宽,而应该把余量留给下一次网络波动。


围绕这一思想,Artic 包含三个模块:响应能力感知码率自适应(ReCapABR)负责「何时不再加码率」,零开销上下文感知流传输(ZeCoStream)负责「有限码率应该给哪里」,退化视频理解基准(DeViBench)则负责「如何评测视频退化对模型理解的影响」。


SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图6

图 4:Artic 总体架构,包括 ReCapABR、ZeCoStream 和 DeViBench 三个核心部分。


1. ReCapABR:当模型已经看懂,就不要继续抢带宽


在传统实时视频通信中,带宽越高通常画质越好,因此拥塞控制会尽可能把可用带宽用满。但在 AI 视频助手里,这个逻辑并不总成立。大模型的回答准确率存在「饱和」现象:当画面质量达到足以支撑当前回答的水平后,继续提高码率,准确率提升可能很小。


ReCapABR 利用大模型反馈的响应置信分数判断当前回答能力是否已经饱和。如果模型已经有足够信心,Artic 就主动限制码率,即使底层拥塞控制认为还可以继续加码,也会保留一部分带宽余量,用来吸收之后可能发生的网络波动。


这是一种很有意思的反直觉设计:在网络还不错的时候主动「少发一点」,反而可以在网络变差的时候「少卡很多」。


2. ZeCoStream:把有限码率花在模型真正关心的位置


如果网络带宽确实不足,单纯降码率会让整幅画面一起变糊。对人类观众来说,这也许只是画质下降;但对大模型来说,某个局部文字、商品标签、车牌或仪表盘一旦糊掉,就可能直接导致答案错误。


ZeCoStream 的做法是让云端大模型反馈当前对回答最重要的区域,客户端再根据这些区域动态调整编码器的量化参数(QP),把更多比特分配给关键区域,把更少比特分配给无关背景。相比在客户端额外部署轻量模型来做区域识别,这种方式几乎不增加端侧计算开销,因为「哪里重要」本来就是大模型在理解视频时已经具备的能力。


为了抵消反馈延迟,ZeCoStream 还让大模型同时预测当前和未来可能重要的区域,使客户端不只是被动追随,而是提前保护接下来可能影响回答的视觉信息。


3. DeViBench:为 AI 视频助手建立「退化视频理解」基准


现有视频传输评测多关注人类感知质量,现有视频理解基准又往往默认输入视频质量较高。两者都无法回答一个新的系统问题:实时视频通信引入的视频质量下降,究竟会怎样影响大模型的回答准确率?


为此,Artic 提出 DeViBench。它并不只问粗粒度问题,而是专门构造对视频质量敏感的问答样本:同一问题在高码率视频上能答对,在低码率退化视频上会答错,才真正能暴露通信质量对模型理解的影响。DeViBench 的自动构建流水线包含视频收集、退化编码、问答生成、敏感样本筛选与交叉验证等步骤(见图 8)。最终包含 1,968 个问答样本,总视频时长 88,680 秒,覆盖 6 * 2 类场景,并提供测试集和验证集。这使它不仅可以评估系统体验质量,也可以用于 Artic 的超参数调优和大模型的 in-context learning。


SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图7

图 8:DeViBench 自动问答样本构建流水线,通过高码率视频与低码率退化视频的回答差异筛选退化敏感问答样本。


实验评估:更低延迟、更高准确率、更可控开销


研究团队使用 C++ 和 Python 实现了 Artic 原型,并与传统 WebRTC 以及不同组件组合进行对比。实验分为三个层面:组件级实验分别验证 ReCapABR 的延迟收益和 ZeCoStream 的准确率收益;基于真实网络轨迹的仿真实验评估了端到端体验质量;系统开销分析则考察客户端计算、服务端成本。



SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图8

图 5:ReCapABR 在带宽波动越频繁时,延迟收益越明显。



SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图9

图 6:ZeCoStream 在低码率下显著提升回答准确率,并降低达到高准确率所需的带宽。


SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图10

图 7:ZeCoStream 将有限码率优先分配给与当前问题相关的关键区域。



SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图11

图 9:真实移动上行网络轨迹下,Artic 同时提升准确率并降低延迟。




SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图12

图 10:Artic 的服务端成本主要来自额外的大模型反馈调用,总成本从 0.3126 美元/分钟增加到 0.3974 美元/分钟。


结论:从网络系统角度走向「真人交互」


让 AI 像真人一样交互,过去更多被理解为模型侧问题:更强的多模态理解、更自然的语音对话、更长的上下文能力。Artic 强调了另一条路径:即使模型本身足够强,如果视频流在真实移动网络中出现延迟尖峰、关键区域被压糊,AI 仍然无法表现得像「在场的人」。因此,Artic 的意义在于把这一愿景转化为网络系统问题:让实时视频通信根据模型的感知状态和真实需求调整传输策略,使云端大模型在恶劣网络中也能及时、准确地「看见」并回应用户。


SIGCOMM 2026 | 从「人眼看视频」到「AI理解视频」:北大提出面向AI的实时通信框架Artic图13


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI AR IC
more
横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%
Karpahty被踢?美或将外籍天才逼出ASI核心圈
阿里妈妈&清华提出生成式出价新算法AIGB-Pearl | ICLR 2026 Oral
当环境持续变化,AI智能体如何保持稳健?NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式
Android 17正式版落地:谷歌用“气泡”与AI重构多任务,Wear OS 7续航提升10%
Dario访谈首曝:Mythos被称为「超级武器」
报名启动!第二届 NVIDIA DGX Spark 黑客松正式开启
腾讯Marvis iOS版上线:手机秒变PC遥控器,跨端协同再进一步
Karpathy投了一家AI记忆公司,撞名DeepSeek Engram记忆架构
收入远高本土平均水平!三星、SK海力士员工跻身韩国婚恋市场顶层;急缺人才!DeepSeek Harness负责人称每日不停面试招人;微信迎重大更新
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号