ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等

机智流 2025-10-18 16:47

本文选自https://paperscope.ai ICCV 数据库,论文解读由 Intern-S1 等 AI 生成。

(1) GGTalker: Talking Head Systhesis with Generalizable Gaussian Priors and Identity-Specific Adaptation

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图1

论文简介:

由北京邮电大学、快手科技和中国人民大学提出了GGTalker,该工作通过通用高斯先验与身份特定适应的两阶段策略,实现了高质量3D说话人合成。GGTalker针对现有方法在大角度旋转和OOD音频下表现不佳的问题,创新性地引入大规模数据学习的面部运动与纹理先验,并通过定制化微调适应个体特征。方法上,首先利用扩散Transformer学习音频到表情的映射关系(Audio-Expression Priors),再通过FLAME模型约束的高斯泼溅表示学习纹理分布(Expression-Visual Priors),最后通过身份特定微调优化唇动风格和纹理细节。技术亮点包括:基于UV空间的高斯分布预测、动态颜色MLP生成运动对齐纹理、以及Body Inpainter实现背景融合。实验表明,GGTalker在PSNR(35.203)、LPIPS(0.0281)等渲染指标领先,唇同步误差(LSE-D)降低40%以上,训练时间缩短至20分钟,推理速度达120FPS。该方法在跨语言和跨身份测试中均展现优异泛化能力,为实时虚拟人交互提供了高效解决方案。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.1155


(2) GameFactory: Creating New Games with Generative Interactive Videos

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图2

论文简介:

由香港大学与快手科技等机构提出了GameFactory,该工作通过利用预训练视频扩散模型的强大生成能力,结合小规模第一人称游戏数据集的动作控制模块,首次实现了跨场景的交互式游戏视频生成。核心贡献在于构建了动作可控且场景泛化的游戏生成框架:首先构建了包含70小时无偏行动作标注的GF-Minecraft数据集,通过原子动作分解和文本场景描述确保数据多样性;其次设计了针对连续鼠标和离散键盘动作的差异化控制模块,采用滑动窗口对齐机制解决时序压缩导致的粒度不匹配问题;更重要的是提出多阶段解耦训练策略,通过LoRA域适配器分离游戏风格学习与动作控制,使模型在保留预训练模型开放域生成能力的同时,实现跨场景的动作响应能力。实验表明,该方法在保持7键+鼠标复杂动作空间控制精度的同时,生成视频在CAM、Flow等指标上较单阶段训练提升22.1%和28.8%,成功在樱花林、雪山等开放域场景中生成可交互游戏视频。这项研究标志着生成式游戏引擎在场景泛化能力上的关键突破,为未来用户自定义游戏创作提供了全新范式。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.107


(3) ReCamMaster: Camera-Controlled Generative Rendering from A Single Video

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图3

论文简介:

由浙江大学、快手科技等机构提出了ReCamMaster,该工作提出了一种基于单视频的相机控制生成渲染框架,通过创新的视频条件机制和大规模多相机同步数据集,实现了对输入视频动态场景的多视角重新拍摄。核心贡献在于:1)设计了帧维度条件注入方法,通过将源视频与目标视频的token沿帧维度拼接,显著提升了跨视频内容一致性与动态同步性;2)构建了包含13.6万动态场景、12.2万相机轨迹的高质量多视角数据集,采用Unreal Engine 5渲染并模拟真实拍摄特性;3)提出噪声注入和多任务训练策略,增强模型对真实视频的泛化能力。实验表明,该方法在视觉质量(FID 57.10)、相机轨迹精度(旋转误差1.22°)和跨视角同步性(匹配像素906K)等指标上全面超越现有方案。此外,其生成能力可扩展至视频稳定、超分辨率和外推等实际应用,为视频创作提供了新的技术路径。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.1665


(4) MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图4

论文简介:

由北京邮电大学与快手科技等机构提出了MUSE(Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion),该工作针对多主题合成中空间控制与身份保持难以兼顾的难题,提出串联交叉注意力(CCA)机制与渐进式两阶段训练框架,实现了高精度布局控制与多主体合成的统一。现有方法在处理布局控制与主体合成时存在"控制碰撞"问题,即空间约束与文本条件在注意力机制中产生冲突。MUSE通过CCA将布局信息显式扩展为文本语义的一部分,使两者在统一语义空间对齐,避免了传统解耦注意力(DCA)的控制干扰。其核心创新在于:1)提出显式布局语义扩展方法,通过串联文本与布局特征构建统一注意力机制,在单次计算中实现多模态对齐;2)设计渐进式两阶段训练策略,先优化布局控制能力,再通过冻结参数引入主体合成模块,有效解决联合优化冲突;3)改进的接地令牌合成方法通过直接叠加位置编码与图像特征,提升多主体细节一致性。实验显示,在MIG Bench数据集上平均布局成功率提升至88.4%,在5-6个主体场景下比GLIGEN提升4.4%,推理速度达4.1秒(较GLIGEN快3.9倍)。在MS-Bench-Random的随机布局测试中,CLIP-I-local指标达0.779,布局成功率(SR-0.65)仅下降6.4%(对比MS-Diffusion的41.7%下降)。该方法在保持文本对齐能力的同时,显著提升了复杂场景下的空间控制精度与主体保真度,为可控图像生成提供了新范式。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.588


(5) SparseRecon: Neural Implicit Surface Reconstruction from Sparse Views with Feature and Depth Consistencies

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图5

论文简介:

由清华大学、华东师范大学、中国电信、快手和韦恩州立大学等机构提出了SparseRecon,该工作提出了一种基于神经隐式表示的稀疏视角表面重建方法,通过体积渲染特征一致性和不确定性引导的深度约束解决小重叠视角下的高质量几何重建难题。针对现有泛化性方法在未见视角下表现不佳、过拟合方法依赖有限几何线索的缺陷,研究者引入跨视角特征一致性损失,通过预训练MVS网络提取图像特征,在神经渲染框架下对采样点进行多视角特征相似性约束,有效缓解稀疏视角导致的几何模糊问题。同时创新性地采用不确定性引导的深度先验约束,在遮挡区域利用校准后的单目深度先验进行几何引导,通过渲染深度置信度动态调整约束强度,避免深度误差对已约束区域的负面影响。实验部分在DTU和BlendedMVS数据集上验证了方法的有效性,采用3个视角输入时,其Chamfer Distance指标较UFORecon、S-VolSDF等最新方法提升显著,尤其在小重叠场景下展现出更完整的表面重建效果。该方法通过双重约束机制实现了稀疏视角下高质量几何细节恢复,为低纹理场景的三维重建提供了新的解决方案。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.1034


(6) BadVideo: Stealthy Backdoor Attack against Text-to-Video Generation

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图6

论文简介:

由香港中文大学深圳、快手等机构提出了BadVideo,该工作首次揭示了文本到视频生成模型的后门攻击风险。研究者发现文本到视频生成过程中存在固有的冗余信息(包括静态环境元素和动态过渡细节),攻击者可通过两种创新策略实现隐蔽攻击:时空组合策略将恶意内容拆分到不同帧中,利用人类视觉整合特性形成完整恶意信息;动态元素转换策略则通过操控冗余元素的时序演变传递恶意目标。实验显示,该攻击在保持原始语义的前提下实现90%以上攻击成功率,成功绕过当前主流内容审核系统。研究者在LaVie和Open-Sora两个主流模型上验证了攻击有效性,发现20%数据污染即可达成高成功率,且对微调、提示扰动等防御手段具有强鲁棒性。该工作不仅揭示了生成式AI模型的安全隐患,还为数字水印等版权保护技术提供了新思路,强调了构建视频生成系统安全机制的迫切性。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.833


(7) Music Grounding by Short Video

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图7

论文简介:

由中国人民大学和快手科技等机构提出了Music Grounding by Short Video(MGSV),该工作针对短视频背景音乐自动匹配的实际需求,首次提出音乐片段定位任务。传统视频到音乐检索(V2MR)方法虽能匹配整体音乐但需手动剪辑,而MGSV直接定位音乐库中与短视频内容最契合的音乐片段,通过构建MGSV-EC数据集(含5.3万短视频与3.5万音乐片段,覆盖4000首音乐)和MaDe模型实现突破。MaDe采用端到端网络,通过自注意力机制增强单模态特征,使用均值池化与X-Pool结合实现视频-音乐匹配,并以视频嵌入作为解码初始特征优化音乐片段检测。实验表明,MaDe在单音乐模式mIoU达0.722,音乐集模式R1和MoR1分别达8.8和8.3,显著优于MomentDETR等视频定位模型及MVPt等V2MR方法。研究还发现交叉注意力机制在该任务中易导致过拟合,而自注意力特征融合更有效。该工作为短视频音乐自动化推荐提供了新范式和基准,推动音乐-grounding技术向实际应用落地。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.660


(8) SweetTok: Semantic-Aware Spatial-Temporal Tokenizer for Compact Video Discretization

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图8

论文简介:

由快手科技等机构提出了SweetTok,该工作提出一种语义感知的时空分量器,通过解耦的空间-时间查询自编码器(DQAE)实现高效视频离散化。SweetTok创新性地将视频的空间与时间信息解耦压缩:首先利用空间编码器对首帧进行token化,再通过时间编码器处理相邻帧残差,结合运动增强型语言代码本(MLC)提升语义表达能力。该方法在UCF-101数据集上实现42.8%的rFVD指标提升,同时将token数量压缩至传统方法的1/4。其核心突破在于:1)DQAE架构通过时空解耦重构策略,使模型能够独立捕捉动态视频中的静态外观与运动特征;2)MLC采用词性划分机制,用名词/形容词表征空间语义、动词/副词编码运动信息,显著提升重建质量;3)压缩后的语义token可直接适配大语言模型,在少样本图像分类和视频动作识别任务中分别取得90.8%和90.1%的准确率。实验表明,SweetTok在保持1280个token时,视频重建性能超越LARP-L 42.8%,生成任务gFVD指标提升15.1%,同时通过微调空间分支在ImageNet图像重建中达到0.37的rFID,较SOTA方法提升37.3%。这种时空解耦的压缩范式为视频离散化提供了新思路。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.1968


(9) Scene Graph Guided Generation: Enable Accurate Relations Generation in Text-to-Image Models via Textural Rectification

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图9

论文简介:

由香港科技大学(广州)、香港科技大学、快手科技、Adobe Research等机构提出了Scene Graph Adapter(SG-Adapter),该工作通过场景图引导的文本嵌入校正技术显著提升了文本到图像生成模型中多关系生成的准确性。针对传统文本编码器因因果注意力机制导致的"关系泄露"问题,研究团队设计了基于场景图结构的适配器,利用显式的三元组-标记注意力掩码(SG Mask)重构文本嵌入的上下文关联,有效解决了实体边界模糊和关系错位问题。同时构建了包含309个高精度标注的多关系场景图-图像对数据集MultiRels,解决了现有数据集标注质量不足的问题。为精准评估关系生成效果,创新性地开发了基于GPT-4V的SG-IoU、Relation-IoU和Entity-IoU三项指标。实验表明,SG-Adapter在保持图像质量(FID 26.2)的同时,关系准确率(77.6%)和实体准确率(77.1%)显著优于Stable Diffusion等基线模型,且在场景图到图像生成任务中FID(25.1)和Inception Score(57.8)均超越现有方法,验证了其在复杂语义结构建模上的优势。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.1560


(10) FullDiT: Video Generative Foundation Models with Multimodal Control via Full Attention

ICCV 2025 「快手科技」相关论文|FullDiT、BadVideo、GGTalker、GameFactory 等图10

论文简介:

由快手科技和香港中文大学等机构提出了FullDiT,该工作通过全注意力机制实现多模态条件整合的视频生成基础模型,解决了适配器方法在多条件控制时存在的分支冲突、参数冗余等问题,显著提升了多任务视频生成的可控性和生成质量。FullDiT将文本、相机参数、人物身份、深度信息等不同模态的控制信号统一编码为序列化表示,通过Transformer架构中的全自注意力机制进行联合建模,利用其长序列建模能力捕捉跨模态的时空关联。研究团队创新性地设计了渐进式训练策略,通过按难度排序的多阶段训练(文本→相机→身份→深度)优化模型收敛效果,并构建了包含1400个测试用例的多条件视频生成基准FullBench。实验表明,FullDiT在单任务控制指标(如相机控制误差降低15%、身份相似度提升7%)和多任务组合生成效果上均超越现有方法,展现出对未见过的条件组合(如同时控制相机运动和人物身份)的涌现能力。模型在扩展训练数据时呈现显著的性能提升趋势,验证了全注意力架构的可扩展性。该工作为视频生成领域提供了首个系统性解决多模态控制问题的通用框架,为影视制作、虚拟内容创作等场景的精细化视频生成提供了新范式。

论文来源:iccv2025

PaperScope.ai 解读:

https://paperscope.ai/hf/iccv2025.1378


关注并🌟机智流,AI 时代不迷航!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
IC
more
红米K90ProMax官宣 | 荣耀Magic8/Pro发布 4499元起 附系统升级计划
Microchip全球首发3nm PCIe 6.0交换芯片
Xbotics社区 · 具身智能Talk
Anthropic CEO再预警:未来5年砍掉一半入门岗,失业率10–20%
荣耀Magic8 Pro体验:随手就能拍好片,AI 听懂自己办
荣耀 Magic 8 系列内置壁纸,好看
AI助手Cici悄然霸榜海外,又是字节
本周P站更新|支持搜索、上线 ICCV 2025 专区,消耗12 亿Token生成2701篇中英文对照 PDF
大疆Mavic 4 Pro原装240W氮化镓桌面充电器拆解,采用英集芯 IP6557 协议升降压芯片
4.5折腰斩!荣耀Magic6彻底癫了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号