
微信|ddl941110
很长一段时间,人们谈 AI 生成,指的是文字、图片、视频。语言模型生成文字,图像模型生成图片,视频模型生成画面。每一步都更靠近真实世界。但这些东西本质上是一回事:内容。能看、能存、能转发——却不能被进入,不能被改变,不能持续运行。
到了 2026 年,行业开始换关键词了。新词叫“世界模型”。
但热词归热词,真问题被绕过去了:AI 要生成一个世界,第一步得先学会生成什么?
内容是结果,世界是过程。一个世界得记得发生过什么,得让不同的人看到同一个东西,得让你每一次操作都留下后果。它不会凭空从概念里长出来,得先有能被编辑、能被驱动的资产。如果 AI 生成的 3D 还停在展示层、进不了生产线,那它离“世界”还远得很。
这正是 VAST 这轮融资值得关注的地方。
产业方投的不是概念
VAST 本月完成超 10 亿元人民币 A3 战略轮融资。金额之外,更值得看的是谁来了。
本轮投资方覆盖了 3D 产业诸多下游:既有吉利这样的头部车企,也有四三九九、贪玩游戏、巨人网络等游戏厂商,以及知名互联网战投。
游戏公司、车企、互联网公司,不会因为漂亮概念轻易下场,产业方的钱向来务实。这一轮能聚齐这个阵容,根本原因在于 Tripo 的 3D 资产生成能力已经进入产业方真实的生产管线。
在此之上,这轮融资还有另一层押注,很多产业方本身关心的是世界模型会怎样改变研发模式,投的是自己每天都在面对的真实问题,而不是一个未来故事。
AI 3D从好看到好用
行业里流传一种说法:AI 3D 好看不好用。这句话只说对了一半。
首先,“好看”本身就是一种价值。3D 打印、电商展示、概念设计这些场景要的就是高精度的视觉呈现,高模本身就是终点。这里 Tripo 已经站在行业天花板,H3.1 的高模生成精度逼近人工雕刻水平,近期上线的 8K 贴图把材质细节推到行业极限,在盲测榜单 top3d.ai 上,Tripo 在纹理、几何等维度稳居全球前列。

“不好用” 发生在游戏这类对生产管线有严格要求的行业。比如专业美术拿到模型要看线框模式看底层布线等,如果实时渲染扛不住,模型绑定做不了,后续编辑无从下手。模型进管线前还要重拓扑、展 UV、清顶点,有时几乎要重做一遍。
AI 花几分钟生成了模型,美术还要花大半天清理,提效还是增加返工,就很难说清了。
Tripo P1.0 也在正面解决不好用的问题,约 2 秒内直接输出拓扑干净的生产级网格模型,生成出来那一刻就能进 UE 或 Maya,不需要人工清理,不需要重新布线。
VAST 首席科学家曹炎培把背后的逻辑总结成一句话:AI 现阶段需要适应人类积累了几十年的工业标准,而不是让人类给 AI 生成的模型擦屁股。
这一步直接打开了一批可商用的场景。
过去行业里大量 AI 生成的 3D 模型只做到了“皮”,视觉近似但支撑它进入生产管线的东西是缺失的。P1.0 解决的是“肉”:通过原生网格生成,模型拥有了严丝合缝的拓扑结构。正因为此,环境道具、建筑组件、家具、简单 NPC 和载具率先进入可用状态,场景也延伸到 XR 和工业数字孪生。
真正难攻的是“骨”。绑定动画要让模型自带运动学和物理结构,关节长在哪,轮子怎么转,角色动作如何不违背身体结构。“骨”一旦成熟,复杂角色、面部动画、带绑定的游戏主角才会真正进入可生成范围,3A 管线的门才会打开。
再往后是“脑”,资产本身变成一个 NPC 或 Agent,能与玩家交互,也能与其他 Agent 交互。到那一步,AI 生成的就不再是单个资产,而是一个有行为、有关系、有底层逻辑的 3D 世界。
所以 Tripo 这条路线的特殊之处在于,它不用等生成世界这个终局成熟之后才开始有商业价值。它每往下补一层能力,都会打开一批新场景。“肉”让静态资产进入生产管线,“骨”让可动资产进入游戏和动画工作流,“脑”则把资产推向可交互世界。
世界模型是更远的终点,但生产力和商业化价值已经在路上兑现。
3D 就是世界的源文件
VAST 的 3D 大模型和世界模型之间有着真实的技术脉络逻辑关系。
做 3D 生成,必须从大量无标注视频中反向提取结构化信号,深度、几何、多视角一致性、相机位姿。这是 VAST 过去几年一直在做的事。
而这套能力和 know-how 产出的,恰恰是状态解耦式世界模型训练最需要的核心数据:带有空间结构和状态信息的原生 3D 信号。
VAST 不是在做完 Tripo 之后才转向世界模型,而是长期做 3D 的过程本身,就在为世界模型积累最关键的底层材料,这些能力,是只做视频生成的团队拿不到的。
当下世界模型领域最热的路线是端到端视频生成,但这条路有一个根本问题没有解决:视频是三维世界压缩到二维平面的结果,丢掉了绝对空间尺度。画面里有桌子,不代表系统知道桌子的几何和状态;画面里火灭了,不代表底层世界记录了“火已熄灭”。
纯视频生成学到的是光影变化规律,而非三维世界本身的物理规则,这正是视频世界模型反复出现常识性、逻辑性错误的根源。
原生 3D 信号才是物理世界本来的表征方式,其长期技术延展性在研究界被严重低估。
Project Eden 是 VAST 在世界模型方向上的研究预览,核心是把状态维护和画面渲染彻底拆开。它分三层:最内核用 3D 方式精确记录环境中每个对象的位置、属性和变化,落在存储上,能记很多也不会忘;中间转换层把 3D 状态转成带时空一致性和语义约束的抽象表示;最上层才是渲染,把抽象状态翻译成人能看到的真实感画面。画面不再负责保存世界,世界在画面背后运行,画面只是观察它的一扇窗。
这套架构对应三个具体目标:多人同时在线互动、长时间大空间的一致性与记忆、实时可交互。赛车里 A 超过了 B 就应该稳定待在前面,多人在线时不同视角看到的是同一个底层世界,离开很久再回到原来的场景还在。
——这才是真实世界应该有的样子。
这也解释了这轮密集融资的逻辑:AI 3D 大模型本身已经有非常丰富的产业应用价值,而世界模型则代表了更广阔的想象空间,也需要更多研发投入和探索。
写在最后
这轮融资背后,产业上下游投下的是一个清晰的判断:当 AI 从生成内容走向生成世界,3D 可能是被低估很久的主路。
VAST已经证明,AI 生成的 3D 可以从展示层进入生产管线,这是一条已经在产生收入的生产力路线。而在更远处,VAST 长期做 3D 积累下来的能力,正在成为其世界模型的底座。它要解决的不是画面能不能更像世界,而是画面背后的世界能不能真的记住、响应,并继续运行。
语言大模型教 AI 说话,图像和视频模型教 AI 看和画。下一步更难:AI 要理解一个物体为什么在这里,也要理解它被移动后为什么不该还在那里。
这就是从内容到世界的距离。

