

智东西10月27日报道,10月25日,美团开源了其首款视频生成大模型——LongCat-Video。该模型面向多任务视频生成场景,旨在以统一架构支持文生视频、图生视频以及视频续写三种能力。
不同于以往针对单一任务训练的模型,LongCat-Video通过多任务联合训练机制,在同一框架内即可处理零帧、单帧及多帧条件输入。
此外,LongCat-Video重点突破了长视频生成难题,原生支持输出5分钟级别的视频。相比常见模型在长时序生成中易出现的画面漂移、色彩偏移等问题,该模型通过在视频续写任务上的原生预训练,保持了较高的时间一致性与视觉稳定性。

在推理效率方面,LongCat-Video借鉴了近年来的高效生成方法,采用“粗到细”两阶段生成策略:先生成480p、15fps的视频,再细化至720p、30fps,并结合块稀疏注意力机制和模型蒸馏,显著降低了高分辨率生成的计算开销,视频生成的推理速度提升到原来的10.1倍,提速幅度超900%。
在后训练阶段,团队引入多奖励强化学习(RLHF)优化方案,利用组相对策略优化(GRPO)方法综合多维度奖励信号,进一步提升模型在多样化任务下的表现。
美团已在多项公开与内部测评中将LongCat-Video与其他视频生成大模型进行了比较。在VBench公开基准测试中,LongCat-Video总得分仅次于Veo3和Vidu Q1。值得注意的是,LongCat-Video在“常识理解”一项中以70.94%的得分位居所有开源模型第一,也超过了Veo3、Seedance 1.0 Pro、Vidu Q1、Kling 1.6、Sora等闭源模型。

目前,美团LongCat-Video已同步开放代码、模型权重及关键模块,模型技术报告也已经发布。
项目主页:
https://meituan-longcat.github.io/LongCat-Video/
模型地址:
技术报告:


在训练LongCat-Video的过程中,美团LongCat团队在任务设计上进行了创新,这也是LongCat-Video能在单一模型内统一文生视频、图生视频和续写视频三类任务的原因。
美团LongCat团队没有为不同的视频生成任务单独设计模型,而是通过“统一任务框架”让三种任务共用同一套网络。模型通过识别输入中“条件帧”的数量自动判断任务类型:当输入为零帧时执行文本生成视频,一帧时执行图像生成视频,多帧时则执行视频续写。
这种机制不仅大幅降低了模型复杂度,也让不同任务之间共享特征空间与训练经验,从而提升整体表现。
为进一步提高长视频生成的效率,模型在注意力机制上设计了可缓存的键值特征,使条件帧的表示可以在采样过程中重复使用,减少了冗余计算。这种机制尤其适合长视频生成,因为它能在保持一致性的同时显著降低计算开销。
强化学习部分是LongCat-Video提升生成质量的关键环节。美团团队基于组相对策略优化方法进行了多重改进,使其适配视频扩散任务。传统的GRPO在视频生成中容易出现奖励信号不稳定和时间归因模糊的问题,团队通过固定随机时间步、引入再加权损失函数以及最大标准差归一化机制,有效解决了这些训练瓶颈。

▲LongCat-Video采用的GRPO方法与基线的生成效果对比
在奖励模型设计上,LongCat-Video采用了三重奖励体系,分别评估视频的视觉质量、运动质量和文本一致性。视觉质量由HPSv3模型打分,衡量画面美感与细节;运动质量通过VideoAlign模型评估,确保动作自然流畅;文本一致性则检验生成视频与输入提示语的语义契合度。
这种多维度的奖励设计让模型在强化学习阶段能够平衡地提升表现,避免过度优化单一指标而导致画面僵化或运动失真。
在高效推理方面,LongCat-Video通过一系列工程创新显著提升了生成速度与分辨率。团队采用“粗到细”的生成策略,先快速生成低分辨率、低帧率的视频,再由LoRA微调的精化模块进行高清复原,最终可输出720p、30帧的成片。
与此同时,LongCat-Video引入块稀疏注意力(Block Sparse Attention)机制,仅计算最相关的10%注意力块,将计算成本降至传统方法的十分之一,几乎不损失生成质量。
这些优化使得LongCat-Video在单卡H800 GPU上几分钟内即可生成一分钟长的视频。再结合一致性模型蒸馏与分类器自由引导(CFG)蒸馏技术,采样步数从传统的50步缩减至16步,推理效率提升至原来的10倍。

▲LongCat-Video在不同设置上的推理速度对比
前段时间最火的AI视频类型——切水果,LongCat-Video也能制作,不过并没有音效,缺少了一些灵魂。



未来,美团计划在视频生成中更好地建模物理知识,集成多模态记忆,融入大语言模型(LLM)和多模态大模型(MLLM)的知识。在美团分享的演示视频中,LongCat-Video能较为准确地输出机器人操作、汽车驾驶等画面,这或许预示着这款模型,有望与美团在机器人、自动驾驶(无人车)领域的业务布局产生一定的协同效应。
