
布鲁克林某栋公寓里,一场对话从下午两点开始,延续到凌晨。说话的人叫谢赛宁,35岁,纽约大学副教授,视觉AI领域绕不开的核心人物之一。这是他人生里第一次坐下来接受深度访谈。
几周后,他的名字出现在一条震动AI圈的消息里:图灵奖得主杨立昆(Yann LeCun)宣布离开Meta,创立AMI Labs,完成10.3亿美元种子轮融资,投前估值35亿美元。全公司25人,零产品。
谢赛宁是这家公司的联合创始人兼首席科学官。创始人简介只有一句话:
Training world models over word models.
训练世界模型,而非语言模型。
这更像是一次公开的表态——在语言模型几乎垄断所有想象力的当下,他选择押注一条被主流叙事长期遮蔽的路径。
一个被忽略的问题
今天的AI,可以写代码、做法律推理、生成复杂文本。但如果让它控制一只机械手,把杯子稳稳放到桌上,依然很容易失败:动作不连贯,接触不稳定,有时候直接碰撞。
而一只普通的家猫,可以轻松跳上窗台,在狭窄空间里移动而不打翻任何东西。
这背后是经典的莫拉维克悖论:人类觉得"简单"的能力,感知、运动、直觉,反而最难被机器掌握;人类觉得"高深"的符号推理,AI反而越容易学会。
对谢赛宁而言,这不只是一个有趣的现象,而是一个出发点。如果智能的终极目标是与真实世界交互,那么当前AI的发展路径,可能从一开始就偏向了更容易的那一侧。
这里有一个值得深想的逻辑:我们衡量AI进步的方式,本身就在塑造AI进步的方向。当行业用考试成绩、代码能力、写作水平来定义"更聪明",研究资源自然会涌向这些方向。但这套评价体系是人类为自己设计的,不是为了检验"能在物理世界中生存"的能力。我们测量什么,就会得到什么——这个道理在AI领域同样成立,只是代价可能要很久之后才会显现。
语言的边界:一种被低估的代价
过去几年,大语言模型的进步速度让人眼晕。各类模型在文本理解和生成上的能力不断刷新上限,一种自然的推论随之形成:只要继续扩大规模,通用智能终将出现。
谢赛宁的疑问,从更基础的地方开始。语言本身,究竟是什么?
语言不是中性的信息容器。它是人类在漫长实践中对世界理解的压缩与编码。当你说"苹果从树上掉下来",这句话里已经打包了重力、空间方向和因果结构,而这些都来自身体经验,而不是文字本身。LLM学到的,本质上是对"人类已经理解并表达出来的东西"的二次学习。它擅长复现人类已经编码过的认知,却无法触及那些从未被语言捕捉的经验,比如一只猫如何判断自己能不能跳过那个距离,一个婴儿如何通过无数次跌倒学会平衡。这类知识,天然不在训练数据里。
谢赛宁用了一个直白的比喻:语言是鸦片。加进去越多,模型表现越好,你越上瘾,越不想戒。代价是,你一点点放弃了那个更硬、更难、更根本的问题,让机器真正理解物理世界。
这个批判还有一个更深的维度。AI圈有个著名原则叫"Bitter Lesson",核心论点是:AI历史反复证明,减少人类先验知识注入、让机器用计算从头学,长期总会赢。LLM的支持者常用这个原则为"越大越好"背书。但谢赛宁的反驳指向一个被忽视的盲点:语言本身就是人类有史以来最大的先验知识库,几千年文明的认知偏见和结构都被压缩在里面。用互联网文字训练模型,本质上是以一种更隐蔽的方式把人类知识全部灌了进去,与"减少人类知识注入"的初衷背道而驰,并非Bitter Lesson的精神。
这里有一个细节很少被讨论:语言的局限不只是"覆盖不全",还在于它天然过滤掉了模糊性。现实世界充满了连续的、有噪声的、难以言说的信息,而语言把这些都离散化、符号化了。一个只靠语言学习的模型,接触到的永远是被人类预先整理过的、清晰化了的世界图景。这种"预处理"降低了学习难度,却也同时切断了模型与真实物理复杂性之间的连接。某种意义上,LLM生活在一个比真实世界更干净的环境里,而这份干净,恰恰是一种代价,称不上优势。
当然,这个争论目前没有定论。LLM的支持者会说,模型通过海量数据涌现出的能力已经远超最初预期,也许它正在以我们尚未理解的方式逼近对物理世界的某种理解。但这恰恰揭示了一个更根本的困境:我们其实还不清楚,真正理解物理世界究竟需要什么。
"世界模型"不是你以为的那个东西
理解了这个批判,就能理解谢赛宁真正在追什么。但这里有一个容易混淆的概念需要先辨清。
世界模型其实分两种,性质截然不同。
第一种是以Sora为代表的"世界模拟器",能够生成高保真、符合物理常识的视频,看起来像真实世界。这很厉害,但它本质上仍然是在为人类的眼睛服务,目标是生成"看起来真实"的内容,而不是理解世界如何运作。
第二种,才是谢赛宁和杨立昆真正在追的,姑且叫它"预测性大脑"。它抛开了生成逼真像素这一目标,转向在抽象的表征空间里对"接下来世界会发生什么"做出预测,并以此为基础指导行动。它的输出落脚于决策,而非一段视频。
打个比方,这两者的差距有点像高清地图和导航系统。一张高清地图能让你看清每一条街道,但不会告诉你现在该左转还是右转。真正的导航系统,即便地图画得粗糙,也能根据你的位置、目的地和实时路况告诉你下一步该怎么做。谢赛宁要建的,是后者。
技术路线上,这对应的是杨立昆提出的JEPA架构,核心思路是让模型在抽象层面预测世界的下一个状态,而不是在像素层面重建细节。AMI Labs积累的V-JEPA 2是目前最成熟的实现之一,只需不到62小时的机器人操作数据,就能让机械臂在从未见过的环境里零样本完成抓取任务,不靠记忆,靠对规律的理解。谢赛宁本人在NYU推进的"Solaris"项目,则是把Minecraft当成受控的物理实验室,强迫模型在持续交互中建立对世界运作方式的真实理解。
这条路线并非没有竞争者。DeepMind、Google等机构也在探索具身智能和世界模型方向。但多数工作仍然围绕特定任务和特定环境,而AMI Labs的野心在于构建一个更通用的表征基础。
有一点值得注意:这两条路线并不是非此即彼的关系。世界模拟器和预测性大脑,完全可能在未来某个阶段形成互补,前者负责感知层的高质量输入,后者负责决策层的规划推理。真正的分歧,不在于技术能否共存,而在于哪个方向应该成为AI架构的核心。谢赛宁的判断是,把生成能力放在核心位置,本质上是把"展示"置于"理解"之上,这个优先级一旦固化,就很难再被纠正。
他拒绝了那个几乎所有人不会拒绝的邀请

沿着这条逻辑线,谢赛宁职业生涯里一个最戏剧性的选择就有了解释。
Ilya Sutskever是前OpenAI首席科学家,深度学习的核心推动者之一,离开OpenAI后创立了Safe Superintelligence Inc.。在AI圈,被他邀请几乎等于一张顶尖认证,大多数人不会拒绝。谢赛宁拒了,两次。
第二次分歧的核心,他说得很直接:他无法接受"视觉问题已经基本解决"这个判断。在他看来,视觉不仅没有解决,而且正在被LLM的强势崛起悄悄边缘化。越来越多的视觉模型开始依赖语言监督信号提升表现,指标在涨,但模型是否真正理解了物理世界,仍然是个开放的问题。
这里有一个颇为有趣的细节。谢赛宁的学生William Peebles,如今正是OpenAI Sora团队的核心负责人之一,用的正是他们一起写出的DiT框架。同一篇论文,老师和学生走上了完全不同的方向。Peebles用DiT建了一座宫殿,谢赛宁觉得那只是一块砖,他要去找更深的地基。两人都没错,只是目标函数不同。
这个细节折射出一个更普遍的现象:在当下的AI行业,同一项技术创新往往会被不同的人解读为截然不同的信号。有人看到DiT,看到的是视觉生成的天花板被打开;谢赛宁看到的,是表征学习还有一大片未被开垦的土地。这种解读差异,不只是个人偏好,背后是对"AI应该解决什么问题"的根本分歧。而这类分歧,在行业高速发展、所有人都在追赶眼前机会的时候,很容易被淹没,很少被认真讨论。
当路径变成惯性

访谈进行到第六个小时,谢赛宁说出了那句最直接的判断:
“Silicon Valley is very LLM-pilled.”
硅谷已经被大语言模型彻底催眠了。
"LLM-pilled"借用了《黑客帝国》里"红蓝药丸"的互联网俚语,意思是一个人彻底皈依某个世界观,再也看不见其他可能性。在谢赛宁眼里,这件事正发生在整个生态链上。从顶级实验室到风投到创业者,所有人都在用同一套逻辑做决策:LLM有效,所以LLM就是方向,所以所有资源都该压在LLM上。
这种逻辑本身并非错误,问题在于它正在形成一种强路径依赖。当一个方向足够成功,围绕它的基础设施、人才、资本和评价体系会不断自我强化,让偏离变得越来越困难。柯达的胶卷业务曾经无比成功,但正是这种成功让它错过了数码转型的窗口。成功本身会制造盲点,而且这种盲点往往在很长一段时间内都不会被察觉。
还有一个角度同样值得关注:路径依赖不只发生在公司层面,也发生在研究者个体身上。当一个领域的顶尖人才都在同一条赛道上竞争,当论文的评审标准、基准测试的设计、经费的分配逻辑都围绕同一个范式建立,一个年轻研究者即便对主流路线有所质疑,也很难在职业上承担得起"走另一条路"的代价。这种结构性的压力,比任何个人的保守主义都更难被突破。谢赛宁能两次拒绝Ilya,背后需要的不只是判断力,还有一种相当罕见的抗压能力。
他还追加了一个更深的判断:AGI这个概念本身,带有明显的人类中心视角。我们习惯用"能完成多少人类智力任务"来定义智能,却很少用"能否在真实世界中自主生存"作为标准。一个能通过所有考试的AI,和一只能在野外活下去的猫,哪个更接近通用智能?这两者并不等价,但我们几乎从未认真讨论过这个差距意味着什么。
杨立昆有一句话,谢赛宁显然深有同感:"为什么我们没有一个像家猫一样敏捷的家用机器人?"答案在于方法论从根本上就走偏了,算力和数据的多少并不是症结所在——就像你没有办法通过读更多的书来学会走路。
10亿美元,押在一个反共识上
AMI Labs的融资数字,放在当下AI行业的语境里显得有些特殊。10.3亿美元,种子轮,投前估值35亿,25个人,零产品,创下欧洲史上最大种子轮纪录。这笔钱,更像是对一种尚未被充分验证的方法论下注。
投资人名单横跨几个彼此并不相邻的世界:英伟达、贝索斯家族办公室、前谷歌CEO施密特、淡马锡、软银、三星、万维网发明人伯纳斯-李。从计算平台到主权资本到产业巨头,这种组合出现在同一张融资表上本身就不寻常,背后是杨立昆一个更大的构想:AI终将成为基础设施,而未来信息流转若只能经由美国闭源模型或中国开源模型中介,对很多国家而言是不可接受的。AMI总部选在巴黎,走开源路线,剑指美中之外的AI第三极。技术路线是一场赌注,地缘政治是另一场赌注,两者叠在一起,构成了这家公司完整的逻辑底色。
有意思的是,这张投资人名单本身就在传递一个信号:这笔钱的来源刻意保持了多元,没有让任何单一势力形成主导。这在风险投资里并不常见,通常意味着创始人在主动管理未来的话语权结构,而不只是在融资。对一家声称要做"第三极"的公司而言,这种刻意的平衡,本身就是战略的一部分。
一个仍未被回答的问题
世界模型是否存在类似LLM那样清晰的Scaling Law,目前尚无定论。以第一人称交互数据为核心的训练范式,在数据获取、隐私和成本上面临的困难比训练LLM复杂得多。商业化路径也远未清晰,机器人和具身智能是周期漫长、不确定性极高的领域,在获得商业正反馈之前,这种由愿景驱动的研发能持续多久,是一个真实的风险。
但也正因如此,这条路径的意义,不完全在于它最终是否成功。在一个高度共识驱动的领域里,少数偏离主流的尝试,往往是防止整体陷入路径依赖的必要条件。LLM的Scaling Law已经出现边际递减的讨论,多模态模型在空间推理上的表现至今差强人意,机器人领域十年过去了,那只能跳上窗台的猫还没有出现。这些信号不足以证明谢赛宁是对的,但足以说明,现有路径并非没有天花板。
有一种可能性值得被认真对待:谢赛宁和杨立昆的判断,不一定会以"世界模型全面取代LLM"的形式被验证,而更可能是以一种更温和的方式影响行业走向——推动LLM研究者开始认真对待物理世界理解这个维度,推动更多资源流向具身智能和感知推理,推动评价标准从纯语言任务向多模态、多场景扩展。即便AMI Labs最终没有成为那个"改变一切"的公司,它提出的问题本身,已经在重新校准整个行业的注意力。
访谈的最后,谢赛宁引用了《银河系漫游指南》里那个经典的段子:超级计算机花了750万年算出了"生命、宇宙和一切的终极答案",答案是42,但没有人知道那个问题是什么。他说,也许当下整个AI行业正处于某种类似的状态,每个人都在全速奔跑,却还没有人真正想清楚,我们要解决的那个问题究竟是什么。
比起更快地给出答案,重新定义问题,可能同样重要。
-END-