过去半年,AI 行业开始频繁谈「世界模型」。多条演化出来的路线,让李飞飞都下场,专门写了一篇文章,解释到底什么是世界模型,又有哪些分类。上下滑动查看更多内容李飞飞的 World Labs 做 Marble,DeepMind 推 Genie,LeCun 也长期强调让 AI 理解物理世界。这个概念听起来足够大足够有前景:让模型生成、理解、推演一个可以进入、可以交互、可以行动的空间。但在国内有一家做 AI 3D 生成的年轻公司影眸科技,其 CEO 吴迪对「会不会做世界模型」的回答,反而有点克制。他说,现在世界模型的定义很宽泛。如果只是生成一个可浏览的环境,他们更愿意叫它「世界生成模型」。真正的世界模型,应该和具身智能、控制、交互有关,要能理解并操纵整个世界。所以,在真正的世界被 AI 生成出来之前,似乎还有一个更具体的问题要先解决:这个世界里的物体从哪里来?一张桌子、一只手套、一个游戏怪兽、一件工业零件,如果只能在屏幕上看起来像,那还停在展示层。真正进入生产流程,它要能被拆分、编辑、换材质、进引擎、接入渲染管线,甚至交给外包团队继续加工。影眸想把这件事情做好,事实证明他们也确实做到了。就在这个月,影眸科技完成了新一轮数亿元融资,由凯辉基金、上海国投先导领投,老股东继续跟投,早前押注它的名单里有字节跳动、美团龙珠、红杉中国和蓝驰创投等。官宣融资同一时间,影眸还正式发布了新一代模型 Hyper3D Rodin Gen-2.5。Hyper3D 官网:hyper3d.ai新的 AI 3D 生成模型 Rodin Gen-2.5 是全球首个具备千万面级生成能力的 3D 大模型,也是第一个将类大语言模型的「先思考、再生成」运行逻辑引入 3D 生成领域的模型。不像大语言模型有越来越多的 Benchmark 来证明模型的能力,AI 3D 还是凭借着实际场景的用户口碑来证明自己。数据显示,Rodin Gen-2.5 上线首月,订阅用户与 ARR 的环比增速扩大 400%。我生成了一个 3D 资产,然后呢图像和视频解决的是「看起来对」,而 3D 产业真正需要的是「用起来对」。图像和视频很多时候服务观看就停在那里了,3D 资产会被继续使用。它会被拆、被改、被绑定、被降面、被导进引擎。生成只是起点,后面的加工才是生产。2024 年以前,市面上大多数 AI 3D 生成工具都卡在了一个尴尬的瓶颈期:好玩,但不能用。传统路径往往依赖「2D 升 3D」,先合成多视角图像,再用算法还原几何,这种做法天生带有噪声和坑洼,在视角不连续时甚至会产生「多头怪」的崩坏结果。对于 3A 游戏、影视后期等核心工业管线来说,这种资产只能拿来「随机抽卡」,完全无法直接交付。直到 2024 年 8 月,影眸团队凭借原生大模型框架 CLAY 提名图形学顶会 SIGGRAPH 最佳论文,推动了行业技术路径的底层变革。而刚刚发布的 Hyper3D Rodin Gen-2.5,则直接将 3D 生成推向了「Production-Ready(生产级可用)」的最终落地方向。Rodin Gen-2.5 的底层变化,可以用一句话概括:让模型根据计算预算自适应决定生成结果的复杂度。过去很多生成模型会给不同对象分配近似固定的表达空间。简单物体和复杂角色,都用相近长度去表示,效率和细节都会受限。但真正有效的方式,应该是简单物体少花时间,复杂对象多花时间。这个思路有点像大语言模型在推理时拉长思考过程,只是对象从文字变成了几何结构和材质细节。我们看到的是 4 秒、20 秒、80 秒这些档位;模型内部对应的是不同长度、不同计算量的生成过程。4 秒可以快速出草稿,适合批量测试和找方向;20 秒更适合结构与细节均衡的资产;80 秒则面向高精度模型,可以把皮肤微结构、毛孔、纹理、龙鳞这类细节做进模型本身。影眸科技 CTO 张启煊表示,Rodin Gen-2.5 之前,很多 AI 3D 结果更多停在白盒或预览阶段。到了 Rodin Gen-2.5 这一代,已经有游戏工作室把 Extreme-High 模式用到高模阶段。比如生成一只怪兽,表面微微隆起的龙鳞可以进入高模,再和低多边形模型结合。游戏美术和工业设计师关心的,大概也是这个东西能不能接到下一道工序里。如果说千万面级的几何生成解决了 3D 模型的「骨肉」,那么 Rodin Gen-2.5 同步推出的 12K 原生 3D 外观生成模型则彻底解决了 3D 模型的「皮囊」。不同于行业普遍采用的「多视图投影」,Hyper3D 通过冻结物体表面光场,将 2D 图像与 3D 外观统一到同一潜在空间。无死角覆盖: 材质纹理实现全 3D 空间一致性补全,再也没有投影拉伸和死角破损。物理级写实: 完美支持基于物理的 PBR 材质(金属度、粗糙度、高光、法线)。超越扫描: 在 12K 超高分辨率加持下,生成的几何精度与材质保真度,在效果上已经可以超越动辄数万元成本的实景扫描,为后期制作留出了巨大的修改空间。配合几何模型同款的 Thinking Effort 设计,最快只需 5 秒,一套包含高精度几何与 12K 贴图的完整资产就能直接出炉。在当前的 AI 调整期,资本市场衡量一家公司的核心指标,已经从「拥有多少用户」变成了「谁在为你持续付费」。影眸科技选择了一条类似 Anthropic 的硬核 B 端路线。目前,影眸的整体商业化结构表现可以总结为:全球化造血: 约 80% 的收入来自海外市场,核心主战场在北美。高黏性 B 端: 营收结构中 B 端与 C 端(Pro C 专业用户)基本呈现 4:6 结构。其积累的 B 端客户营收超过同赛道其他所有友商的总和,且续费率几近 100%。顶流大厂排队接入: 在英伟达创始人黄仁勋的 CES 主题演讲中,3D 资产生成工作流便采用了 Hyper3D Rodin。目前,Unity AI Beta、OctaneRender、Canva、Figma 等专业设计与引擎平台均已先后接入 Hyper3D 的能力。核心研发平均 00 后的公司AI 时代,小体量的公司,甚至是一人公司逐渐成为主流,此外,年轻化也是 AI 领域的一大特征。公司创始人曾提到,影眸现在加上实习生约 60 人,技术团队约占三分之二,核心算法团队很多人从本科阶段一起成长,流动很少。其 CTO 张启煊说,公司成立到现在,流出的核心算法人才只有 3 个,分别去了英伟达、迪士尼研发部门和腾讯。小团队的好处,是方向更集中,年轻化的好处,是点子更加天马行空。影眸的核心团队来自上海科技大学的 MARS 实验室,吴迪 2015 年入学,第二年就搭起了这个实验室。核心研发平均 00 后、约 60 人的团队,很难让人把它和「生成世界」这样宏大的命题联系起来。但回头看影眸过去几年的路线,会发现他们几乎一直在做同一件事。从扫描真实世界,到生成数字人;从生成单个物体,到生成完整资产;接下来再从资产走向场景。尺度一直在变大,但方向始终没变。当 AI 行业开始重新讨论世界模型时,有人在生成环境,有人在生成游戏,有人在探索具身智能。对于世界模型究竟是什么,至今没人能给出标准答案。但有一点或许越来越清晰:在那个能够被进入、被交互、被操纵的数字世界真正出现之前,总得有人先把里面真实可控的东西造出来。我们正在招募伙伴📮 简历投递邮箱hr@ifanr.com✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)