不止于Sora 2！商汤Seko再次定义“成片智能体”，AI视频生成迎来杀手级应用

不止于Sora 2！商汤Seko再次定义“成片智能体”，AI视频生成迎来杀手级应用图2 🤖头图由AI生成

让AI视频生成拿来即用。

作者 | 程茜

编辑 | 漠影

AI视频的竞争焦点开始转移——

不再局限于单一画面效果的比拼，而是聚焦可用性与开箱即用的突破。

9月底Sora 2的横空出世便清晰传递出这一趋势：其不仅以精彩纷呈的动态生成效果刷新行业认知，更通过能引入现实角色、提升物理模拟逼真度、集成创编传播工具等的综合性“成片智能体”，展现了向易用性、实用性发展的趋势。

这一行业趋势逐渐明晰的当下，国产平台商汤Seko早已率先布局，以实际行动重新定义AI视频的应用边界。

下面的视频就直观展示了Seko的成片能力，这一视频从剧本、分镜、配音到后期均由Seko完成，并且精细到每一个细节都符合导演和编剧要求，画面以及动画效果也都拉到专业级。Seko用户@听白AIGC 生成了下面的视频，将动漫形象与现实环境相结合且毫无违和感，使得整体画面质感提升。

▲基于Seko创作的商品广告

还有下面的恐怖氛围短片，Seko用户@liuker、@不会画画的美术生生成的视频中呈现了医院场景，从阴森的空间布局到冷冽的灯光风格，所有视觉元素全程在线、精准配合，成功营造出压抑、惊悚的恐怖氛围。

▲基于Seko创作的AI英文短剧

作为国内首个创编一体的短片创作Agent平台，Seko用户规模与作品数量的快速爆发增长证明了产品的价值。

从工具到智能体、从画面到成片，AI正从根本上降低内容生产的门槛、提升创作效率、拓展表达边界。在这场由Sora2引领的变革中，国产平台商汤Seko是亦步亦趋的追随者，还是另辟蹊径的破局者？我们试图拆解Sora 2与Seko，找到其在这场变革中抢占先机的关键要素。

01.

“成片智能体”风起：

从技术炫技到应用为王

回溯AI视频产业的发展脉络，早期产品多停留在技术验证层面，往往会通过生成各类逼真、新奇的视频内容来满足用户好奇心，如今随着营销、短剧、自媒体等领域的刚性需求爆发，其定位正逐渐向生产力工具转移，而能否覆盖从创意到成片的全流程，也成为衡量产品价值的核心标准。

9月底爆火的Sora 2以及OpenAI伴随其发布的Sora应用就清晰表明了这一趋势。

具体来看，在核心生成能力上，Sora 2实现了全维度的性能提升。

物理模拟层面，其优化动力学与材质还原的可信度，能精准呈现对象体积、遮挡关系与光照交互，例如模拟液体泼洒时的流动轨迹、织物飘动的重力反馈均更贴近真实物理逻辑；音频能力实现了音画一体化生成，环境音、动作音效可随画面场景自动匹配；口型同步技术能根据对白内容实现声音与唇形的精准对齐，支持多语言对话；叙事连贯性上，强化多镜头逻辑衔接。

提示词：吉卜力工作室动画风格，画面中一个男孩和他的狗跑上长满青草的风景优美的山坡，头顶是绝美的云朵，远处背景中还能眺望到一个村庄（in the style of a studio ghibli anime, a boy and his dog run up a grassy scenic mountain with gorgeous clouds, overlooking a village in the distant background）。

▲Sora 2生成视频

其次是产品形态方面，OpenAI伴随Sora 2推出的独立Sora App社交平台，通过内置的Cameo（角色引入）功能，用户可创建高度逼真的个人数字分身，无缝植入任意Sora 2的生成场景，还能授权好友使用自己的形象实现多人同框创作。

相比上一代产品，Sora 2正向着更符合用户实际创作需求的工具转型。

但值得注意的是，Sora 2的生成本质上仍是“黑盒式”输出，因为用户输入指令后需等待系统完整输出，无法对中间环节进行干预调整，即便使用千字级的详细提示词，也可能出现与预期偏差的生成结果。

因此在实际应用场景，这对追求精准表达的商业创作而言，无疑意味着不可预知的时间损耗与修改成本。

反观国内，商汤科技今年8月推出的Seko就在成片智能体的基础上，实现了“可控式闭环”。

Seko可以做到自动剧本拆解、分镜生成、角色一致性控制等，来生成高质量AI视频，与Sora 2在成片智能体核心能力上实现对标。下面Seko用户@豆芽AI笔记本生成的视频中主体角色整体一致，画面跟随人物移动时也没有出现偏差。

▲基于Seko创作的AI短剧

与Sora 2不同的是，Seko支持实时可编辑，非一次输入、一次输出，甚至可对分镜画布局部修改，消除、重绘、元素添加等，让用户通过精细化编辑实现“所见即所得”。

不止于Sora 2！商汤Seko再次定义“成片智能体”，AI视频生成迎来杀手级应用图4

▲Seko分镜画布局部修改功能

尽管当下AI视频发展距离规模化应用还有一定距离，但当下我们可以确定的是，其行业竞争正在从单一效果比拼转向全链路价值竞争，也就是“成片智能体”在AI视频工具中逐渐成为共识。

02.

解码“成片智能体”概念

让AI视频开箱即用的关键

以“成片智能体”应具备的能力为标准，我们看到Sora 2和Seko的部分能力设定高度趋同，都朝着让AI视频生成开箱即用视频、零门槛出成片的目标进阶。

需要注意的是，即便二者在降低创作难度、覆盖全流程需求等方向上高度趋同，但实现路径呈现鲜明差异，Sora 2强调的是端到端直接输出，Seko则看重生成过程中各环节进行可控性编辑。

先来具体看下两大平台的相似与不同之处。

首先，降低使用门槛的前提是，让AI能听懂用户的日常表达，减少对专业工具的依赖。

Sora 2和Seko都可以理解用户的日常用语，不需要更为专业的术语即可生成相应的视频内容，打破AI视频创作对专业知识的依赖。

在实测体验时，当智东西输入“小羊介绍新疆伊犁的美丽景色，一只拟人化的小羊羔，超写实风格”的提示词，其就会生成策划摘要、美术风格、角色主体、场景概念、音乐风格、分镜剧本。

不止于Sora 2！商汤Seko再次定义“成片智能体”，AI视频生成迎来杀手级应用图5

此外众所周知视频的创作需要不同的工具进行音画比配、物理模拟等，Seko将复杂技术环节全部封装为后台自动流程，用户无需手动调试参数，更无需借助剪辑、配音等第三方工具，就可以实现输入想法就能得到视频的体验。

Seko近日上线的新功能还支持一键制作多人对口型视频，基于SekoTalk这个商汤自研的图生视频对口型算法，在音乐MV、剧情视频、广告等领域都可以应用。在下面的视频中，它支持中英文等多种语言、多人对口型，包括轮流说话或者同时说话的情况，即使是语速超快的说唱也不会出现偏差。

▲基于SekoTalk创作的多人对口型视频

其次是端到端直接输出与极致的可编辑性，这也是Sora 2和Seko两大成片智能体最核心的区别。

Sora 2和Seko均可以覆盖创作的全链路，其支持多模态输入，用户能通过文本描述构建场景、上传参考图定义角色外观，可一次性完成从创意拆解、理解复杂指令到成片输出的端到端贯通。值得一提的是，此次Sora应用新增的Cameo与Seko的主体功能类似，都是通过生成统一的角色，保证后续生成内容的主体稳定、一致。

不止于Sora 2！商汤Seko再次定义“成片智能体”，AI视频生成迎来杀手级应用图6

▲Sora 2的Cameo功能（左）、Seko的主体功能（右）

在此之上，Seko还进一步将生成内容进行了细化拆解，打造了“先静后动”流程，将创作分为分镜确认、细节修改、视频生成几个阶段，具体来说就是，平台先根据用户创意生成静态分镜序列，经用户逐帧检查画面内容后，可以直接通过自然语言指令重绘角色、调整台词或镜头角度，最后都确认无误后再一键转视频。

为了进一步确保成片的可控性，Seko还具备分镜静态预览、分镜画布局部修改等功能，允许用户在每个环节，对生成内容进行修改，如直接要求“把图中的小羊换成牧羊犬”，系统能精准完成修改。

不止于Sora 2！商汤Seko再次定义“成片智能体”，AI视频生成迎来杀手级应用图7

Seko还支持一键修改背景，如要求“更换背景为咖啡厅”等。

不止于Sora 2！商汤Seko再次定义“成片智能体”，AI视频生成迎来杀手级应用图8

▲Seko局部修改功能

当用户确认了分镜的主体、视频内容、文字内容，就可以在右上方点击一键转视频。相比于Sora 2的一键成片，Seko的成片方式给予了用户更大的自由创作空间。

最后是成片质量方面，相比于早期的工具，Sora 2、Seko在视频生成内容的镜头穿帮、音画不同步等问题上，已经基本实现了超长分镜的稳定输出。

在此基础上，Seko平台还更进一步，集成了商汤日日新、即梦、可灵、海螺、Veo等多款业界主流生图模型，用户基于该平台能精准控制多角色、多场景的复杂剧本输出，确保角色形象、光线风格、动作逻辑全程稳定。下面Seko用户@不会画画的美术生生成的视频中，Seko将背景音乐、镜头转换等诸多设定都与剧本内容相呼应。

▲基于Seko创作的AI英文短剧

这些技术突破共同指向，AI视频生成正朝着“成片智能体”进化，其核心是通过极简交互、全流程贯通与高质量输出降低创作门槛。

商汤科技的Seko在此基础上基于分镜预览、可控式流程等关键能力，在视频生成的可控性与商业可行性两大关键维度上率先落地，让“成片智能体”真正从技术概念变为触手可及的生产力工具。

03.

从不可控到可落地：

Seko重构AI视频商业化价值逻辑

Sora 2和Seko的发展让我们看到了AI视频商业化落地的潜力，但当我们将视野放大到整个生成式AI行业会发现，想要让AI视频生成真正实现拿来即用，远比图文生成复杂得多。

视频创作需同步处理画面渲染的时序逻辑、音频合成的情绪适配、物理模拟的真实反馈等多重难题，任何环节的断层都会让生成的视频出现偏差。

正因为这种复杂性，Sora 2与商汤Seko在“成片智能体”的定位上，也呈现出了差异化的思路，前者聚焦从输入到输出的高质量端到端交付，后者则在保证成片质量的基础上，强化了全流程创作的自主、可编辑与可控性。下面Seko用户@林龙生成的视频中，伴随着镜头的变化将拯救公主的故事进行了完整呈现，还融入了逼真的特效。

▲基于Seko创作的AI短片

正如前面所提到的，创作可控性在AI视频生成中至关重要，这也是Seko相比Sora 2等其他工具的显著优势，其核心可概括为创意可控、风格可控、成本可控。

创意可控基本贯穿了前期用户创作的全流程。

用户输入核心创意后可进入编辑模式，对画面细节不满意可直接修改提示词重绘单帧分镜，觉得台词生硬能逐句调整文案并同步更新配音，想优化叙事节奏可直接增减分镜或调整镜头结构。