全公司25人、0产品，却拿到10.3亿美元种子轮：他在赌一个硅谷不愿相信的答案

布鲁克林某栋公寓里，一场对话从下午两点开始，延续到凌晨。说话的人叫谢赛宁，35岁，纽约大学副教授，视觉AI领域绕不开的核心人物之一。这是他人生里第一次坐下来接受深度访谈。

几周后，他的名字出现在一条震动AI圈的消息里：图灵奖得主杨立昆（Yann LeCun）宣布离开Meta，创立AMI Labs，完成10.3亿美元种子轮融资，投前估值35亿美元。全公司25人，零产品。

谢赛宁是这家公司的联合创始人兼首席科学官。创始人简介只有一句话：

Training world models over word models.
训练世界模型，而非语言模型。

这更像是一次公开的表态——在语言模型几乎垄断所有想象力的当下，他选择押注一条被主流叙事长期遮蔽的路径。

一个被忽略的问题

今天的AI，可以写代码、做法律推理、生成复杂文本。但如果让它控制一只机械手，把杯子稳稳放到桌上，依然很容易失败：动作不连贯，接触不稳定，有时候直接碰撞。

而一只普通的家猫，可以轻松跳上窗台，在狭窄空间里移动而不打翻任何东西。

这背后是经典的莫拉维克悖论：人类觉得"简单"的能力，感知、运动、直觉，反而最难被机器掌握；人类觉得"高深"的符号推理，AI反而越容易学会。

对谢赛宁而言，这不只是一个有趣的现象，而是一个出发点。如果智能的终极目标是与真实世界交互，那么当前AI的发展路径，可能从一开始就偏向了更容易的那一侧。

这里有一个值得深想的逻辑：我们衡量AI进步的方式，本身就在塑造AI进步的方向。当行业用考试成绩、代码能力、写作水平来定义"更聪明"，研究资源自然会涌向这些方向。但这套评价体系是人类为自己设计的，不是为了检验"能在物理世界中生存"的能力。我们测量什么，就会得到什么——这个道理在AI领域同样成立，只是代价可能要很久之后才会显现。

语言的边界：一种被低估的代价

过去几年，大语言模型的进步速度让人眼晕。各类模型在文本理解和生成上的能力不断刷新上限，一种自然的推论随之形成：只要继续扩大规模，通用智能终将出现。

谢赛宁的疑问，从更基础的地方开始。语言本身，究竟是什么？

语言不是中性的信息容器。它是人类在漫长实践中对世界理解的压缩与编码。当你说"苹果从树上掉下来"，这句话里已经打包了重力、空间方向和因果结构，而这些都来自身体经验，而不是文字本身。LLM学到的，本质上是对"人类已经理解并表达出来的东西"的二次学习。它擅长复现人类已经编码过的认知，却无法触及那些从未被语言捕捉的经验，比如一只猫如何判断自己能不能跳过那个距离，一个婴儿如何通过无数次跌倒学会平衡。这类知识，天然不在训练数据里。

谢赛宁用了一个直白的比喻：语言是鸦片。加进去越多，模型表现越好，你越上瘾，越不想戒。代价是，你一点点放弃了那个更硬、更难、更根本的问题，让机器真正理解物理世界。

这个批判还有一个更深的维度。AI圈有个著名原则叫"Bitter Lesson"，核心论点是：AI历史反复证明，减少人类先验知识注入、让机器用计算从头学，长期总会赢。LLM的支持者常用这个原则为"越大越好"背书。但谢赛宁的反驳指向一个被忽视的盲点：语言本身就是人类有史以来最大的先验知识库，几千年文明的认知偏见和结构都被压缩在里面。用互联网文字训练模型，本质上是以一种更隐蔽的方式把人类知识全部灌了进去，与"减少人类知识注入"的初衷背道而驰，并非Bitter Lesson的精神。

这里有一个细节很少被讨论：语言的局限不只是"覆盖不全"，还在于它天然过滤掉了模糊性。现实世界充满了连续的、有噪声的、难以言说的信息，而语言把这些都离散化、符号化了。一个只靠语言学习的模型，接触到的永远是被人类预先整理过的、清晰化了的世界图景。这种"预处理"降低了学习难度，却也同时切断了模型与真实物理复杂性之间的连接。某种意义上，LLM生活在一个比真实世界更干净的环境里，而这份干净，恰恰是一种代价，称不上优势。

当然，这个争论目前没有定论。LLM的支持者会说，模型通过海量数据涌现出的能力已经远超最初预期，也许它正在以我们尚未理解的方式逼近对物理世界的某种理解。但这恰恰揭示了一个更根本的困境：我们其实还不清楚，真正理解物理世界究竟需要什么。

"世界模型"不是你以为的那个东西

理解了这个批判，就能理解谢赛宁真正在追什么。但这里有一个容易混淆的概念需要先辨清。

世界模型其实分两种，性质截然不同。

第一种是以Sora为代表的"世界模拟器"，能够生成高保真、符合物理常识的视频，看起来像真实世界。这很厉害，但它本质上仍然是在为人类的眼睛服务，目标是生成"看起来真实"的内容，而不是理解世界如何运作。

第二种，才是谢赛宁和杨立昆真正在追的，姑且叫它"预测性大脑"。它抛开了生成逼真像素这一目标，转向在抽象的表征空间里对"接下来世界会发生什么"做出预测，并以此为基础指导行动。它的输出落脚于决策，而非一段视频。

打个比方，这两者的差距有点像高清地图和导航系统。一张高清地图能让你看清每一条街道，但不会告诉你现在该左转还是右转。真正的导航系统，即便地图画得粗糙，也能根据你的位置、目的地和实时路况告诉你下一步该怎么做。谢赛宁要建的，是后者。

技术路线上，这对应的是杨立昆提出的JEPA架构，核心思路是让模型在抽象层面预测世界的下一个状态，而不是在像素层面重建细节。AMI Labs积累的V-JEPA 2是目前最成熟的实现之一，只需不到62小时的机器人操作数据，就能让机械臂在从未见过的环境里零样本完成抓取任务，不靠记忆，靠对规律的理解。谢赛宁本人在NYU推进的"Solaris"项目，则是把Minecraft当成受控的物理实验室，强迫模型在持续交互中建立对世界运作方式的真实理解。

这条路线并非没有竞争者。DeepMind、Google等机构也在探索具身智能和世界模型方向。但多数工作仍然围绕特定任务和特定环境，而AMI Labs的野心在于构建一个更通用的表征基础。

有一点值得注意：这两条路线并不是非此即彼的关系。世界模拟器和预测性大脑，完全可能在未来某个阶段形成互补，前者负责感知层的高质量输入，后者负责决策层的规划推理。真正的分歧，不在于技术能否共存，而在于哪个方向应该成为AI架构的核心。谢赛宁的判断是，把生成能力放在核心位置，本质上是把"展示"置于"理解"之上，这个优先级一旦固化，就很难再被纠正。

他拒绝了那个几乎所有人不会拒绝的邀请

全公司25人、0产品，却拿到10.3亿美元种子轮：他在赌一个硅谷不愿相信的答案图2

沿着这条逻辑线，谢赛宁职业生涯里一个最戏剧性的选择就有了解释。

Ilya Sutskever是前OpenAI首席科学家，深度学习的核心推动者之一，离开OpenAI后创立了Safe Superintelligence Inc.。在AI圈，被他邀请几乎等于一张顶尖认证，大多数人不会拒绝。谢赛宁拒了，两次。

第二次分歧的核心，他说得很直接：他无法接受"视觉问题已经基本解决"这个判断。在他看来，视觉不仅没有解决，而且正在被LLM的强势崛起悄悄边缘化。越来越多的视觉模型开始依赖语言监督信号提升表现，指标在涨，但模型是否真正理解了物理世界，仍然是个开放的问题。

这里有一个颇为有趣的细节。谢赛宁的学生William Peebles，如今正是OpenAI Sora团队的核心负责人之一，用的正是他们一起写出的DiT框架。同一篇论文，老师和学生走上了完全不同的方向。Peebles用DiT建了一座宫殿，谢赛宁觉得那只是一块砖，他要去找更深的地基。两人都没错，只是目标函数不同。

这个细节折射出一个更普遍的现象：在当下的AI行业，同一项技术创新往往会被不同的人解读为截然不同的信号。有人看到DiT，看到的是视觉生成的天花板被打开；谢赛宁看到的，是表征学习还有一大片未被开垦的土地。这种解读差异，不只是个人偏好，背后是对"AI应该解决什么问题"的根本分歧。而这类分歧，在行业高速发展、所有人都在追赶眼前机会的时候，很容易被淹没，很少被认真讨论。

当路径变成惯性

全公司25人、0产品，却拿到10.3亿美元种子轮：他在赌一个硅谷不愿相信的答案图3

访谈进行到第六个小时，谢赛宁说出了那句最直接的判断：

“Silicon Valley is very LLM-pilled.”

硅谷已经被大语言模型彻底催眠了。

"LLM-pilled"借用了《黑客帝国》里"红蓝药丸"的互联网俚语，意思是一个人彻底皈依某个世界观，再也看不见其他可能性。在谢赛宁眼里，这件事正发生在整个生态链上。从顶级实验室到风投到创业者，所有人都在用同一套逻辑做决策：LLM有效，所以LLM就是方向，所以所有资源都该压在LLM上。

这种逻辑本身并非错误，问题在于它正在形成一种强路径依赖。当一个方向足够成功，围绕它的基础设施、人才、资本和评价体系会不断自我强化，让偏离变得越来越困难。柯达的胶卷业务曾经无比成功，但正是这种成功让它错过了数码转型的窗口。成功本身会制造盲点，而且这种盲点往往在很长一段时间内都不会被察觉。

还有一个角度同样值得关注：路径依赖不只发生在公司层面，也发生在研究者个体身上。当一个领域的顶尖人才都在同一条赛道上竞争，当论文的评审标准、基准测试的设计、经费的分配逻辑都围绕同一个范式建立，一个年轻研究者即便对主流路线有所质疑，也很难在职业上承担得起"走另一条路"的代价。这种结构性的压力，比任何个人的保守主义都更难被突破。谢赛宁能两次拒绝Ilya，背后需要的不只是判断力，还有一种相当罕见的抗压能力。

他还追加了一个更深的判断：AGI这个概念本身，带有明显的人类中心视角。我们习惯用"能完成多少人类智力任务"来定义智能，却很少用"能否在真实世界中自主生存"作为标准。一个能通过所有考试的AI，和一只能在野外活下去的猫，哪个更接近通用智能？这两者并不等价，但我们几乎从未认真讨论过这个差距意味着什么。

杨立昆有一句话，谢赛宁显然深有同感："为什么我们没有一个像家猫一样敏捷的家用机器人？"答案在于方法论从根本上就走偏了，算力和数据的多少并不是症结所在——就像你没有办法通过读更多的书来学会走路。

10亿美元，押在一个反共识上

AMI Labs的融资数字，放在当下AI行业的语境里显得有些特殊。10.3亿美元，种子轮，投前估值35亿，25个人，零产品，创下欧洲史上最大种子轮纪录。这笔钱，更像是对一种尚未被充分验证的方法论下注。

投资人名单横跨几个彼此并不相邻的世界：英伟达、贝索斯家族办公室、前谷歌CEO施密特、淡马锡、软银、三星、万维网发明人伯纳斯-李。从计算平台到主权资本到产业巨头，这种组合出现在同一张融资表上本身就不寻常，背后是杨立昆一个更大的构想：AI终将成为基础设施，而未来信息流转若只能经由美国闭源模型或中国开源模型中介，对很多国家而言是不可接受的。AMI总部选在巴黎，走开源路线，剑指美中之外的AI第三极。技术路线是一场赌注，地缘政治是另一场赌注，两者叠在一起，构成了这家公司完整的逻辑底色。

有意思的是，这张投资人名单本身就在传递一个信号：这笔钱的来源刻意保持了多元，没有让任何单一势力形成主导。这在风险投资里并不常见，通常意味着创始人在主动管理未来的话语权结构，而不只是在融资。对一家声称要做"第三极"的公司而言，这种刻意的平衡，本身就是战略的一部分。

一个仍未被回答的问题

世界模型是否存在类似LLM那样清晰的Scaling Law，目前尚无定论。以第一人称交互数据为核心的训练范式，在数据获取、隐私和成本上面临的困难比训练LLM复杂得多。商业化路径也远未清晰，机器人和具身智能是周期漫长、不确定性极高的领域，在获得商业正反馈之前，这种由愿景驱动的研发能持续多久，是一个真实的风险。

但也正因如此，这条路径的意义，不完全在于它最终是否成功。在一个高度共识驱动的领域里，少数偏离主流的尝试，往往是防止整体陷入路径依赖的必要条件。LLM的Scaling Law已经出现边际递减的讨论，多模态模型在空间推理上的表现至今差强人意，机器人领域十年过去了，那只能跳上窗台的猫还没有出现。这些信号不足以证明谢赛宁是对的，但足以说明，现有路径并非没有天花板。

有一种可能性值得被认真对待：谢赛宁和杨立昆的判断，不一定会以"世界模型全面取代LLM"的形式被验证，而更可能是以一种更温和的方式影响行业走向——推动LLM研究者开始认真对待物理世界理解这个维度，推动更多资源流向具身智能和感知推理，推动评价标准从纯语言任务向多模态、多场景扩展。即便AMI Labs最终没有成为那个"改变一切"的公司，它提出的问题本身，已经在重新校准整个行业的注意力。

访谈的最后，谢赛宁引用了《银河系漫游指南》里那个经典的段子：超级计算机花了750万年算出了"生命、宇宙和一切的终极答案"，答案是42，但没有人知道那个问题是什么。他说，也许当下整个AI行业正处于某种类似的状态，每个人都在全速奔跑，却还没有人真正想清楚，我们要解决的那个问题究竟是什么。

比起更快地给出答案，重新定义问题，可能同样重要。

-END-