从生成内容到生成世界，AI 需要一套新的底层语言

作者｜董道力
微信｜ddl941110

很长一段时间，人们谈 AI 生成，指的是文字、图片、视频。语言模型生成文字，图像模型生成图片，视频模型生成画面。每一步都更靠近真实世界。但这些东西本质上是一回事：内容。能看、能存、能转发——却不能被进入，不能被改变，不能持续运行。

到了 2026 年，行业开始换关键词了。新词叫“世界模型”。

但热词归热词，真问题被绕过去了：AI 要生成一个世界，第一步得先学会生成什么？

内容是结果，世界是过程。一个世界得记得发生过什么，得让不同的人看到同一个东西，得让你每一次操作都留下后果。它不会凭空从概念里长出来，得先有能被编辑、能被驱动的资产。如果 AI 生成的 3D 还停在展示层、进不了生产线，那它离“世界”还远得很。

这正是 VAST 这轮融资值得关注的地方。

产业方投的不是概念

VAST 本月完成超 10 亿元人民币 A3 战略轮融资。金额之外，更值得看的是谁来了。

本轮投资方覆盖了 3D 产业诸多下游：既有吉利这样的头部车企，也有四三九九、贪玩游戏、巨人网络等游戏厂商，以及知名互联网战投。

游戏公司、车企、互联网公司，不会因为漂亮概念轻易下场，产业方的钱向来务实。这一轮能聚齐这个阵容，根本原因在于 Tripo 的 3D 资产生成能力已经进入产业方真实的生产管线。

在此之上，这轮融资还有另一层押注，很多产业方本身关心的是世界模型会怎样改变研发模式，投的是自己每天都在面对的真实问题，而不是一个未来故事。

AI 3D从好看到好用

行业里流传一种说法：AI 3D 好看不好用。这句话只说对了一半。

首先，“好看”本身就是一种价值。3D 打印、电商展示、概念设计这些场景要的就是高精度的视觉呈现，高模本身就是终点。这里 Tripo 已经站在行业天花板，H3.1 的高模生成精度逼近人工雕刻水平，近期上线的 8K 贴图把材质细节推到行业极限，在盲测榜单 top3d.ai 上，Tripo 在纹理、几何等维度稳居全球前列。

“不好用” 发生在游戏这类对生产管线有严格要求的行业。比如专业美术拿到模型要看线框模式看底层布线等，如果实时渲染扛不住，模型绑定做不了，后续编辑无从下手。模型进管线前还要重拓扑、展 UV、清顶点，有时几乎要重做一遍。

AI 花几分钟生成了模型，美术还要花大半天清理，提效还是增加返工，就很难说清了。

Tripo P1.0 也在正面解决不好用的问题，约 2 秒内直接输出拓扑干净的生产级网格模型，生成出来那一刻就能进 UE 或 Maya，不需要人工清理，不需要重新布线。

VAST 首席科学家曹炎培把背后的逻辑总结成一句话：AI 现阶段需要适应人类积累了几十年的工业标准，而不是让人类给 AI 生成的模型擦屁股。

这一步直接打开了一批可商用的场景。

过去行业里大量 AI 生成的 3D 模型只做到了“皮”，视觉近似但支撑它进入生产管线的东西是缺失的。P1.0 解决的是“肉”：通过原生网格生成，模型拥有了严丝合缝的拓扑结构。正因为此，环境道具、建筑组件、家具、简单 NPC 和载具率先进入可用状态，场景也延伸到 XR 和工业数字孪生。

真正难攻的是“骨”。绑定动画要让模型自带运动学和物理结构，关节长在哪，轮子怎么转，角色动作如何不违背身体结构。“骨”一旦成熟，复杂角色、面部动画、带绑定的游戏主角才会真正进入可生成范围，3A 管线的门才会打开。

再往后是“脑”，资产本身变成一个 NPC 或 Agent，能与玩家交互，也能与其他 Agent 交互。到那一步，AI 生成的就不再是单个资产，而是一个有行为、有关系、有底层逻辑的 3D 世界。

所以 Tripo 这条路线的特殊之处在于，它不用等生成世界这个终局成熟之后才开始有商业价值。它每往下补一层能力，都会打开一批新场景。“肉”让静态资产进入生产管线，“骨”让可动资产进入游戏和动画工作流，“脑”则把资产推向可交互世界。

世界模型是更远的终点，但生产力和商业化价值已经在路上兑现。

3D 就是世界的源文件

VAST 的 3D 大模型和世界模型之间有着真实的技术脉络逻辑关系。

做 3D 生成，必须从大量无标注视频中反向提取结构化信号，深度、几何、多视角一致性、相机位姿。这是 VAST 过去几年一直在做的事。

而这套能力和 know-how 产出的，恰恰是状态解耦式世界模型训练最需要的核心数据：带有空间结构和状态信息的原生 3D 信号。

VAST 不是在做完 Tripo 之后才转向世界模型，而是长期做 3D 的过程本身，就在为世界模型积累最关键的底层材料，这些能力，是只做视频生成的团队拿不到的。

当下世界模型领域最热的路线是端到端视频生成，但这条路有一个根本问题没有解决：视频是三维世界压缩到二维平面的结果，丢掉了绝对空间尺度。画面里有桌子，不代表系统知道桌子的几何和状态；画面里火灭了，不代表底层世界记录了“火已熄灭”。

纯视频生成学到的是光影变化规律，而非三维世界本身的物理规则，这正是视频世界模型反复出现常识性、逻辑性错误的根源。

原生 3D 信号才是物理世界本来的表征方式，其长期技术延展性在研究界被严重低估。

Project Eden 是 VAST 在世界模型方向上的研究预览，核心是把状态维护和画面渲染彻底拆开。它分三层：最内核用 3D 方式精确记录环境中每个对象的位置、属性和变化，落在存储上，能记很多也不会忘；中间转换层把 3D 状态转成带时空一致性和语义约束的抽象表示；最上层才是渲染，把抽象状态翻译成人能看到的真实感画面。画面不再负责保存世界，世界在画面背后运行，画面只是观察它的一扇窗。

这套架构对应三个具体目标：多人同时在线互动、长时间大空间的一致性与记忆、实时可交互。赛车里 A 超过了 B 就应该稳定待在前面，多人在线时不同视角看到的是同一个底层世界，离开很久再回到原来的场景还在。

——这才是真实世界应该有的样子。

这也解释了这轮密集融资的逻辑：AI 3D 大模型本身已经有非常丰富的产业应用价值，而世界模型则代表了更广阔的想象空间，也需要更多研发投入和探索。

写在最后

这轮融资背后，产业上下游投下的是一个清晰的判断：当 AI 从生成内容走向生成世界，3D 可能是被低估很久的主路。

VAST已经证明，AI 生成的 3D 可以从展示层进入生产管线，这是一条已经在产生收入的生产力路线。而在更远处，VAST 长期做 3D 积累下来的能力，正在成为其世界模型的底座。它要解决的不是画面能不能更像世界，而是画面背后的世界能不能真的记住、响应，并继续运行。

语言大模型教 AI 说话，图像和视频模型教 AI 看和画。下一步更难：AI 要理解一个物体为什么在这里，也要理解它被移动后为什么不该还在那里。

这就是从内容到世界的距离。