

智东西10月1日报道,今日凌晨,OpenAI发布了旗舰视频和音频生成模型Sora 2,并推出“AI版抖音”——Sora应用程序。OpenAI将Sora 2称作“正直奔视频领域的GPT-3.5时刻”。相比之前的Sora,Sora 2能更加精准逼真地模拟物理世界,并且更易于控制,还支持同步对话和音效。从官方公布的视频Demo来看,它可以完成一些对于之前的视频生成模型难以完成的事情:奥运会体操动作、精准模拟浮力和桨板上后空翻,以及花滑运动员头顶猫咪的三周半跳。▲提示词:花样滑冰运动员头顶一只猫表演三周半跳。
Sora应用程序定位一款社交App,支持用户将自己生成的视频上传,并通过“客串(Cameos)”功能让用户参与到好友视频创作中。OpenAI的目标是试图打造一种全新独特的人际沟通方式。▲OpenAI推出社交App Sora
目前,Sora iOS应用程序现已开放下载,以邀请制的形式在美国和加拿大推出。获得邀请码的用户也可在Sora官网免费体验Sora 2,ChatGPT Pro用户可以体验更高质量的Sora 2 Pro模型。Sora 2一经发布就在外网炸开了锅,有大部分人是求邀请码的,有小部分人已拿到邀请码。社交平台X上立马出现了不少Sora 2生成视频,甚至连OpenAI CEO萨姆·阿尔特曼都被“玩坏了”。▲OpenAI研究员Gabriel生成的阿尔特曼“客串”视频引围观同时也有不少人感到担忧,X上的一位用户称:“几个月后,我们将无法区分什么是真实的,什么不是真实的,那将是一个可怕的时代。”▲社交平台X的网友评论
OpenAI称,2024年2月发布的Sora在很多方面都堪称视频领域的“GPT-1时刻”——视频生成首次开始显现成效,通过扩展预训练计算能力,物体持久性等需求得以实现。OpenAI将Sora 2称作“正直奔视频领域的GPT-3.5时刻”。先前的视频模常常使得物体变形并扭曲现实,以便成功执行文本提示。例如,如果篮球运动员投篮不中,球可能会自动传送到篮筐。但在Sora 2中,如果篮球运动员投篮不中,球会从篮板上反弹。还比如,下面这个Sora 2生成的后空翻视频,表演者甚至在落地后有一些踉跄,且脸上出现了因小失误有些尴尬的表情,很像真实生活中的场景。▲提示词:一个人做后空翻。
有趣的是,该模型犯下的“错误”往往看起来像是Sora 2 隐式建模的内部智能体所犯的错误;尽管它仍然不完美,但与先前的系统相比,它在遵循物理定律方面做得更好。OpenAI认为,对于任何有用的世界模拟器来说,这都是一项极其重要的能力——你必须能够模拟失败,而不仅仅是成功。该模型在可控性方面也实现了巨大的飞跃,能够执行跨越多个镜头的复杂指令,同时精准地保留世界状态。它擅长处理写实、电影和动漫风格。▲提示词:维京人参战——北海发射(10.0 秒,冬季凉爽的日光/中世纪早期)......
作为通用的视频音频生成系统,它能够创建具有高度真实感的复杂背景音景、语音和音效。▲提示词:两名身穿亮色技术盔甲的登山探险者,脸上结满冰霜,眯着眼睛,急切地在雪地里喊叫,一次一个。
用户还可以将现实世界的元素直接注入Sora 2。例如,通过观察我们一位队友的视频,该模型可以将其插入到任何由Sora生成的环境中,并准确刻画其外貌和声音。这项功能非常通用,适用于任何人类、动物或物体。▲提示词:大脚对他真的很好,有点儿太好了,好得有点儿古怪。大脚想跟他一起玩,但他想玩得太多了。
OpenAI称,该模型远非完美,并且存在很多错误,但它证实了进一步扩大视频数据上的神经网络将使我们更接近模拟现实。
今天,OpenAI还推出了一款名为“Sora”的全新iOS社交应用,该应用由Sora 2提供支持。在应用中,用户可以创作、混录彼此的创作风格,在可自定义的Sora动态中发现新视频,并通过“客串(Cameos)”功能将自己或好友引入到视频中。使用客串功能,用户只需在应用中进行一次简短的音视频录制,即可以惊人的保真度将自己直接带入任何Sora场景。这看起来像一款AI版的抖音或TikTok,而OpenAI认为,围绕这项“客串”功能构建的社交应用是Sora 2体验的魅力所在。几个月前,OpenAI在Sora团队开始尝试“上传自己生成的视频”的功能,他们都玩得很开心。OpenAI称,这感觉就像是沟通方式的自然演变——从短信到表情符号,再到语音备忘录,再到现在的视频。上周,OpenAI向全体员工内部发布了这款应用。已经有同事反馈,他们通过这项功能在公司结识了新朋友。
OpenAI将Sora应用以邀请制的形式推出,确保用户能与好友一同使用。收到邀请后,用户还可以通过sora.com访问Sora 2 。Sora 2最初将免费提供,但这些功能仍受计算能力限制。ChatGPT Pro用户还可以在sora.com上使用实验性的、更高质量的Sora 2 Pro模型。OpenAI还计划在API中发布Sora 2。Sora 1 Turbo将继续可用,用户创建的所有内容也将继续存在于sora.com中。为了防止上瘾等问题,OpenAI将采取一系列措施。一是其将为用户提供工具和自主选择权,让他们能够掌控信息流中的内容。利用OpenAI现有的大型语言模型,其开发了一类新的推荐算法,可以通过自然语言进行指导;还内置了定期调查用户健康状况的机制,并主动为他们提供调整信息流的选项。默认情况下,OpenAI会向用户显示主要针对关注或互动的人的内容,并优先显示模型认为用户最有可能用作创作灵感的视频;不会针对用户在动态信息流中花费的时间进行优化,明确设计这款应用的初衷是最大限度地提升创作量,而非消费量。在青少年保护方面,OpenAI将通过ChatGPT推出Sora家长控制功能,以便家长可以覆盖无限滚动限制、关闭算法个性化以及管理私信设置。在客串功能方面,用户可以与Sora端到端地掌控肖像。只有用户本人才能决定谁可以使用自己的客串,并且可以随时撤销访问权限或移除包含该客串的任何视频。用户可以随时查看包含您客串的视频,包括其他人创建的草稿。OpenAI在这款应用中处理了许多安全问题,例如肖像使用方面的知情同意、出处确认、防止有害内容的生成等等。其他应用的很多问题都源于其盈利模式。OpenAI目前唯一的计划是,如果需求量相对于可用计算能力过大,最终允许用户选择支付一定金额来生成额外的视频。
自OpenAI在2024年2月发布Sora已经过去超一年半时间,Sora 2终于到来。从效果来看,这款模型在模拟真实性、可控性及音效方面都有比较大的进展,有望推动视频生成产业格局加速洗牌。视频模型正在飞速发展,通用世界模拟器不仅提供了新的内容生成方式,还有望重塑人际沟通方式。OpenAI正通过全新的Sora社交App靠近这一目标,也标志视频生成模型在落地应用上更加成熟。