AI 终于造出「真实世界」!谷歌 Genie 3 让你秒变造物主,世界的边界不存在了

APPSO 2025-08-06 13:36
在电影《盗梦空间》里,梦境迷宫能够被设计,仅凭一个念头就能创造出一个完整的世界。
资讯配图
过去,这似乎是遥不可及的科幻情节。但现在,Google DeepMind 发布的 Genie 3,好像要开始让这个梦想,一步步照进现实。
简单来说,Genie 3 是一个通用世界模型(world model)。我们只需要给它一句文字提示,比如「一条宁静的湖边小路」,它就能在几秒钟内生成一个你可以实时漫步、互动的动态世界。
它能做到的,不只是生成「会动的视频」,而是真正创造一个可以实时互动、操控的虚拟世界
说什么,它就能实时生成什么
如果你关注这方面的动态,可能会记得 Google 此前发布的 Genie 1 和 Genie 2。甚至前段时间在 WAIC 2025 上腾讯发布的混元 3D 世界开源模型。
对比 Genie 1 和 Genie 2,这次 Google DeepMind 团队实现了一次关键的升级,从「生成可互动视频」变成了「实时生成可互动世界」。
资讯配图
Genie 3 的升级除了「可漫游」这一方面,它的强大之处主要体现在以下几点。
实时交互性:Genie 3 生成的世界不是预先渲染好的视频。它能以 720p 分辨率和 24fps 的帧率实时运行,让我们像玩游戏一样在其中自由移动。
更长的持续性和一致性:这是最令人惊艳的升级。
相比前代模型十几秒的互动时间,Genie 3 将这个时长提升到了「几分钟」。更重要的是,它拥有长达一分钟的视觉记忆。
这意味着,当我们转身再回头时,墙上的涂鸦、远处的建筑依然会保持原样,世界不会在你回头后「刷新」,极大地提升了沉浸感。
提示词:第一人称视角动作摄像头拍摄用油漆滚筒粉刷一栋浅色房子的画面。
可提示的世界事件:这让我们拥有了「上帝视角」。
除了移动,我们还可以通过输入新的文本指令来改变世界。比如,在生成的滑雪场景里,我们可以用一句话「凭空」加入一群麋鹿,或者随时改变天气状况。这种能力让世界的动态性和可玩性大大增强。
资讯配图
选择一个世界设定。然后,挑选一个事件,可以看看 Genie 3 如何创造它。
Genie 3 的世界生成能力也极为丰富,无论是水、光照等自然现象,还是充满想象力的动画虚构场景,乃至历史风貌,它都能以较高的水准完成构建。
游戏、内容创作、具身智能训练场
Genie 3 的出现,打开了通往未来的三扇大门。
1、终极的游戏引擎和内容创作工具
想象一下,未来的游戏开发者或电影导演,不再需要耗费数年时间进行 3D 建模和场景搭建。
他们只需要输入详尽的文字描述,就能生成一个游戏世界或电影场景的雏形。这无疑将颠覆整个内容创作行业,让「人人都是造物主」成为可能。
提示词: 一个充满活力的3D风格,一只可爱、毛茸茸的小生物在奇幻景观中的彩虹桥上欢快地奔跑。(部分省略……)
2、最理想的 AI 训练场
这是 Google 目前最看重的应用方向。DeepMind 认为,世界模型是通往通用人工智能(AGI)的关键一步,他们也明确表示,未来 Genie 3 会用于支持各种 embodied AI 的训练。
像机器人、自动驾驶系统等 AI 智能体,可以在 Genie 3 生成的无数个虚拟仓库、城市街道中进行训练。它们可以在模拟环境中「看见」世界如何演变,并预判自己行为的后果。
这比在现实世界中训练成本更低、效率更高,也更安全。Google 已经将自家的通用智能体 SIMA 放入 Genie 3 生成的世界中进行测试。
前段时间,马斯克在 X 发文因为规定无法使用中国的数据,来训练自己的特斯拉自动驾驶汽车,提到 xAI 有在研发使用虚拟世界来完成对自动驾驶的训练。我想这就是世界模型非常大的用处之一。
资讯配图
3、颠覆性的教育和模拟培训
除了训练 AI,Genie 3 也能用来训练人。
想学滑雪?不用去雪山,Genie 3 可以为你生成一个逼真的虚拟滑雪场。医学生可以在模拟的手术室中反复练习,飞行员可以在各种极端天气下进行模拟驾驶。它为专业技能培训提供了无限的可能性。
从视频到世界,Genie 3 的技术升级
和腾讯混元采用的方法不同,Genie 3 不是在构建一个可以被下载、编辑和导入到其他 3D 软件,包含了几何模型、纹理贴图的静态 3D 场景,它的产出物是一个可交互的、流式的视觉体验。
一般的 3D 世界模型采用「显式 3D 表示」(explicit 3D representation,3D 建模)的技术(如 NeRFs 神经辐射场和 Gaussian Splatting 高斯溅射)。
而 Genie 3 的动态和丰富性,则是来源于实时、逐帧的类视频流生成的方式,而不是基于一个可供导出的、固定的 3D 结构。
资讯配图
混元 3D 世界模型,是可以下载、编辑的3D数字资产
但是逐帧生成也不是一件容易的事情。生成一段 8 秒的视频,可能只需要几十次推理,而 Genie 3 的难度就在于,它必须每秒连续生成 24 帧图像,并保持世界内一致性、逻辑性与交互性。
比如一个角色转头再回头,看见的物体必须在原位;我们上一分钟放下的木箱,不能突然消失。
DeepMind 解决这个问题的方式是,让 Genie 3 在每次生成时都记住过去的「轨迹」,甚至能追溯一分钟前的状态。
资讯配图
Genie 3 技术突破,交互时长可以达到几分钟
这意味着,它不是一次性生成所有画面,而是根据我们的每一个操作实时推演世界的下一个状态,类似于一种极简但智能的「游戏引擎」。
相比之下,NeRFs 或高斯溅射那类建模方法,需要先获得完整的 3D 场景数据再生成画面。Genie 3 则是一个「边玩边生成」,AI 实时渲染的视频游戏,灵活且开放。
「边玩边生成」很好,但离完美还有距离
尽管 Genie 3 描绘的未来令人无比兴奋,但它离完美的「创世引擎」还有一段路要走。Google 也坦诚地指出了它目前的局限性:
提示词:海灯节期间的摩托艇(很像在原神开船)
交互时长有限:虽然「几分钟」已经是巨大进步,但距离支撑数小时的开放世界游戏体验还有差距。
智能体动作有限:目前 AI 智能体能直接执行的动作还比较基础,很多复杂的环境干预需要通过文本提示来完成。
「单人模式」:模拟多个独立的智能体在同一世界中进行复杂互动,仍然是一个技术难题。
无法精准复现实景:它还不能以完美的地理精度模拟真实世界的某个地点。
文字渲染能力差:除非在初始提示中就提供,否则很难生成清晰易读的文字。
毫无疑问,Genie 3 是世界模型发展的一个重要里程碑
它最大的意义在于,将 AI 的能力从「生成内容」提升到了「模拟世界」的高度。实时交互性和可提示的世界事件,是它与之前版本的 Genie 以及同类模型拉开差距的关键。
虽然 Google 出于安全和责任的考虑,目前仅向一小部分学者和创作者开放了 Genie 3 的研究预览版,我们普通用户还无法立即体验。
但这扇通往未来的大门已经打开,它模糊了创造者与玩家、虚拟与现实的界限。
就像 X 上有网友评论说,
资讯配图
未来,AI 世界的规则不再写死在代码里,而是像我们人类想象世界那样灵活、多变、可控。
语言不再只是表达思想,而是塑造现实的工具。
而世界的边界,就藏在每一句 prompt 里。
资讯配图
欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
资讯配图
我们正在招募伙伴
📮 简历投递邮箱hr@ifanr.com
✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)
更多岗位信息请点击这里🔗
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
一日三连发!OpenAI踏上开源路,Anthropic抢占AI编码高地,谷歌拿出最强世界模型
2025年度AI关键词(七):伦理争议 | 《WAIC UP!》绿皮书Ⅲ
学会通知丨中国人工智能学会-华为AI算力加速计划项目申报通知
提前抢票!芯和半导体、中兴微、环旭电子、光羽芯辰、日月光、天成先进、沛顿等领衔共探AI时代先进封装!
国安部提醒:警惕AI “数据投毒”
腾讯AI Lab开源可复现的深度研究智能体,最大限度降低外部依赖
AI时代硬核EMBA来了!交大高金「科技强国计划」全额奖学金等你来拿
学会通知丨2025年CAAI-蚂蚁科研基金(AGI专项)项目征集通知
重磅!2025年中国及31省市AI玩具行业政策汇总及解读(全)
新材料革命来了!MIT/杜克大学联手用AI设计环保塑料,让强度飙升400%,这个意想不到的分子结构由AI发现
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号