从生成内容到生成世界,AI 需要一套新的底层语言

硅星人Pro 2026-07-02 12:16
从生成内容到生成世界,AI 需要一套新的底层语言图1
作者|董道力
微信|ddl941110

很长一段时间,人们谈 AI 生成,指的是文字、图片、视频。语言模型生成文字,图像模型生成图片,视频模型生成画面。每一步都更靠近真实世界。但这些东西本质上是一回事:内容。能看、能存、能转发——却不能被进入,不能被改变,不能持续运行。

到了 2026 年,行业开始换关键词了。新词叫“世界模型”。

但热词归热词,真问题被绕过去了:AI 要生成一个世界,第一步得先学会生成什么?

内容是结果,世界是过程。一个世界得记得发生过什么,得让不同的人看到同一个东西,得让你每一次操作都留下后果。它不会凭空从概念里长出来,得先有能被编辑、能被驱动的资产。如果 AI 生成的 3D 还停在展示层、进不了生产线,那它离“世界”还远得很。

这正是 VAST 这轮融资值得关注的地方。

1

产业方投的不是概念

VAST 本月完成超 10 亿元人民币 A3 战略轮融资。金额之外,更值得看的是谁来了。

本轮投资方覆盖了 3D 产业诸多下游:既有吉利这样的头部车企,也有四三九九、贪玩游戏、巨人网络等游戏厂商,以及知名互联网战投。

游戏公司、车企、互联网公司,不会因为漂亮概念轻易下场,产业方的钱向来务实。这一轮能聚齐这个阵容,根本原因在于 Tripo 的 3D 资产生成能力已经进入产业方真实的生产管线。

在此之上,这轮融资还有另一层押注,很多产业方本身关心的是世界模型会怎样改变研发模式,投的是自己每天都在面对的真实问题,而不是一个未来故事。

1

AI 3D从好看到好用

行业里流传一种说法:AI 3D 好看不好用。这句话只说对了一半。

首先,“好看”本身就是一种价值。3D 打印、电商展示、概念设计这些场景要的就是高精度的视觉呈现,高模本身就是终点。这里 Tripo 已经站在行业天花板,H3.1 的高模生成精度逼近人工雕刻水平,近期上线的 8K 贴图把材质细节推到行业极限,在盲测榜单 top3d.ai 上,Tripo 在纹理、几何等维度稳居全球前列。

从生成内容到生成世界,AI 需要一套新的底层语言图2

“不好用” 发生在游戏这类对生产管线有严格要求的行业。比如专业美术拿到模型要看线框模式看底层布线等,如果实时渲染扛不住,模型绑定做不了,后续编辑无从下手。模型进管线前还要重拓扑、展 UV、清顶点,有时几乎要重做一遍。

AI 花几分钟生成了模型,美术还要花大半天清理,提效还是增加返工,就很难说清了。

Tripo P1.0 也在正面解决不好用的问题,约 2 秒内直接输出拓扑干净的生产级网格模型,生成出来那一刻就能进 UE 或 Maya,不需要人工清理,不需要重新布线。

VAST 首席科学家曹炎培把背后的逻辑总结成一句话:AI 现阶段需要适应人类积累了几十年的工业标准,而不是让人类给 AI 生成的模型擦屁股。

这一步直接打开了一批可商用的场景。

过去行业里大量 AI 生成的 3D 模型只做到了“皮”,视觉近似但支撑它进入生产管线的东西是缺失的。P1.0 解决的是“肉”:通过原生网格生成,模型拥有了严丝合缝的拓扑结构。正因为此,环境道具、建筑组件、家具、简单 NPC 和载具率先进入可用状态,场景也延伸到 XR 和工业数字孪生。

真正难攻的是“骨”。绑定动画要让模型自带运动学和物理结构,关节长在哪,轮子怎么转,角色动作如何不违背身体结构。“骨”一旦成熟,复杂角色、面部动画、带绑定的游戏主角才会真正进入可生成范围,3A 管线的门才会打开。

再往后是“脑”,资产本身变成一个 NPC 或 Agent,能与玩家交互,也能与其他 Agent 交互。到那一步,AI 生成的就不再是单个资产,而是一个有行为、有关系、有底层逻辑的 3D 世界。

所以 Tripo 这条路线的特殊之处在于,它不用等生成世界这个终局成熟之后才开始有商业价值。它每往下补一层能力,都会打开一批新场景。“肉”让静态资产进入生产管线,“骨”让可动资产进入游戏和动画工作流,“脑”则把资产推向可交互世界。

世界模型是更远的终点,但生产力和商业化价值已经在路上兑现。

1

3D 就是世界的源文件

VAST 的 3D 大模型和世界模型之间有着真实的技术脉络逻辑关系。

做 3D 生成,必须从大量无标注视频中反向提取结构化信号,深度、几何、多视角一致性、相机位姿。这是 VAST 过去几年一直在做的事。

而这套能力和 know-how 产出的,恰恰是状态解耦式世界模型训练最需要的核心数据:带有空间结构和状态信息的原生 3D 信号。

VAST 不是在做完 Tripo 之后才转向世界模型,而是长期做 3D 的过程本身,就在为世界模型积累最关键的底层材料,这些能力,是只做视频生成的团队拿不到的。

当下世界模型领域最热的路线是端到端视频生成,但这条路有一个根本问题没有解决:视频是三维世界压缩到二维平面的结果,丢掉了绝对空间尺度。画面里有桌子,不代表系统知道桌子的几何和状态;画面里火灭了,不代表底层世界记录了“火已熄灭”。

纯视频生成学到的是光影变化规律,而非三维世界本身的物理规则,这正是视频世界模型反复出现常识性、逻辑性错误的根源。

原生 3D 信号才是物理世界本来的表征方式,其长期技术延展性在研究界被严重低估。

Project Eden 是 VAST 在世界模型方向上的研究预览,核心是把状态维护和画面渲染彻底拆开。它分三层:最内核用 3D 方式精确记录环境中每个对象的位置、属性和变化,落在存储上,能记很多也不会忘;中间转换层把 3D 状态转成带时空一致性和语义约束的抽象表示;最上层才是渲染,把抽象状态翻译成人能看到的真实感画面。画面不再负责保存世界,世界在画面背后运行,画面只是观察它的一扇窗。

这套架构对应三个具体目标:多人同时在线互动、长时间大空间的一致性与记忆、实时可交互。赛车里 A 超过了 B 就应该稳定待在前面,多人在线时不同视角看到的是同一个底层世界,离开很久再回到原来的场景还在。

——这才是真实世界应该有的样子。

这也解释了这轮密集融资的逻辑:AI 3D 大模型本身已经有非常丰富的产业应用价值,而世界模型则代表了更广阔的想象空间,也需要更多研发投入和探索。

1

写在最后

这轮融资背后,产业上下游投下的是一个清晰的判断:当 AI 从生成内容走向生成世界,3D 可能是被低估很久的主路。

VAST已经证明,AI 生成的 3D 可以从展示层进入生产管线,这是一条已经在产生收入的生产力路线。而在更远处,VAST 长期做 3D 积累下来的能力,正在成为其世界模型的底座。它要解决的不是画面能不能更像世界,而是画面背后的世界能不能真的记住、响应,并继续运行。

语言大模型教 AI 说话,图像和视频模型教 AI 看和画。下一步更难:AI 要理解一个物体为什么在这里,也要理解它被移动后为什么不该还在那里。

这就是从内容到世界的距离。

从生成内容到生成世界,AI 需要一套新的底层语言图3
从生成内容到生成世界,AI 需要一套新的底层语言图4
点个爱心,再走

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
腾讯研究院AI速递 20260702
腾讯元宝跳转政务小程序,AI 助手开始学会「办正事」了
Meta以Muse Spark取代Llama 4,智能眼镜竞争转向AI模型分众化时代
123亿!上海神秘AI芯片独角兽官宣,美团小米京东参投
WAIC特别关注|在AI中看见具体的人:7小时私享20个独家AI故事
LG电子切入ASIC设计服务,台积电关系与韩国On-Device AI生态受关注
203.8亿!AI视频最大单笔融资,即将诞生
曝美国最强AI公司暗藏针对中国的「监视代码」,已持续3个月;优必选CEO:珍惜做牛马的时光,20年后全是机器人干活;iPhone17价格将迎调整
抢购200台设备、强势扩产,存储巨头1100万亿韩元押注AI存储
AI带动电子信息制造业新增长
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号