马斯克和阿尔特曼又杠上了!
智东西10月8日报道,今天凌晨,马斯克的大模型独角兽xAI祭出最新视频生成模型Imagine v0.9,免费向所有用户开放。
一周前,OpenAI发布了旗舰视频和音频生成模型Sora 2,此次更新或许是马斯克对Sora 2的直接回应。
xAI并没有放出完整的技术博客,只是提到Imagine v0.9相比初代版本在视觉质量、动作、音频生成方面有所升级,并上传了几个生成视频案例。
马斯克在X上发帖称,Imagine v0.9的视频生成时间不到20秒,且用户可以基于语音优先界面,只需说话就能创建视频、图像和文本。

总结来看,Imagine v0.9的生成速度更快,在20秒以内,Sora 2生成视频可能需要一两分钟;Imagine v0.9已经免费向所有用户开放,Sora 2采用邀请制允许部分用户使用;Imagine v0.9生成的视频时长在6秒左右,Sora 2支持15秒视频生成。
智东西对比了Imagine v0.9和Sora 2的生成效果,采用OpenAI官方示例的提示词,Imagine v0.9在生成时会出现提示词理解错误、视频画面与音频不符、不提示深度伪造风险、无法说中文等情况。
值得一提的是,这也是马斯克今年7月挖走英伟达高级算法工程师何宜晖(Ethan He)之后,何宜晖在xAI参与的第一个项目。
何宜晖2018年本科毕业于西安交通大学计算机科学与技术专业,2019年在卡内基梅隆大学取得计算机视觉硕士学位,2023年加入英伟达担任高级深度学习算法工程师,曾参与英伟达世界基础模型Cosmos研发。

尽管Imagine v0.9可以免费使用,但智东西尝试后发现Web端目前无法正常工作,移动端可以体验,不过也会出现连接失败的情况。
Imagine v0.9集成到了Grok中,其会根据文字先生成图片再创建视频,或者直接将用户上传的图片变成视频。
智东西使用了OpenAI演示Sora 2时的提示词,对比了Imagine v0.9和Sora 2的生成效果。
提示词:Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time(两名山地探险者穿着色彩鲜艳的专业冲锋衣,脸上结着冰霜,眼神急切地眯成一条缝,在雪地里轮流大喊)
OpenAI放出的Sora 2生成视频:
Imagine v0.9的生成视频:
可以看出,Imagine v0.9生成的视频中音频并没有包含“喊叫”,只是画面中人物在张嘴。
提示词:a guy does a backflip(一个男人后空翻)
OpenAI放出的Sora 2生成视频:
Imagine v0.9的生成视频:
智东西选择了Grok生成的第一张图创建视频,视频中主角完全无视重力开始在空中360度旋转。
