经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年

甲子光年 2026-06-18 13:00
经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图1
经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图2

用机器的方式,抵达人类未曾到达的因果彼岸。


作者|刘杨楠

编辑|栗子


过去半年,从硅谷到中关村,许多人都试图通过世界模型在物理世界复刻ChatGPT的传奇。可物理世界有太多语言无法描述的隐秘变量,例如摩擦力、温度、光照等等,无不影响着模型对现实世界的理解程度。光靠堆语言或视频数据和算力,已经不够用了。


而一笔刚刚落定的融资,将外界目光引向了一位来自加州大学圣地亚哥分校的学者。


6月18日,Aether AI宣布完成约2000万美元首轮融资,由经纬创投领投,英诺基金、SWC Global、九合创投联合参投。这家成立不久的AI公司所押注的方向,正是黄碧薇博士在CVPR 2026上抛出的答案——因果世界模型。


经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图3

黄碧薇博士(Prof. Biwei Huang),图片来源:Aether AI


黄碧薇博士(Prof. Biwei Huang)是加州大学圣地亚哥分校(UCSD)助理教授、Aether AI创始人。她有一个看似并不合群的观察,认为今天所有主流大模型,本质上都只是在学相关性,而非因果性这会让模型永远停留在数据的表层关联里,无法真正理解世界运行的逻辑。


这个判断建立在她过往十余年研究基础上,从上海中科院神经所到德国马普所(Max Planck Institute)、图宾根大学,最终进入该领域的开创地CMU,师从多位奠基人Kun Zhang, Clark Glymour, Peter Spirtes,和Bernhard Schölkopf。由此,她的研究路径几乎贯穿了因果AI从欧洲到美国的完整传承。


博士毕业那年,黄碧薇迎面撞上了ChatGPT掀起的LLM浪潮。尽管身处AI前沿研究多年,她对LLM并非一无所知,但ChatGPT在自然语言任务上的惊人效果,还是给她带来了巨大冲击。“方法明明非常简单粗暴,但效果确实很好。”她回忆道,“那时候意识到,即使在小数据上挖尽所有信息,也比不上在大数据上做一次简单的挖掘。”


冲击过后,她迅速冷静,开始重新审视前行方向。


黄碧薇系统回望过去30年的AI演变,从中拎出两条清晰的主线:一是模型规模从小到大的跃迁,二是抽象深度从相关性到因果性的递进。


具体来看,90年代初,基于相关性的小模型研究成为主流;2010年前后,她和CMU的导师们用小模型的成熟算法将因果发现推向了新的高度,开创了以因果为核心的小模型时代;而ChatGPT的横空出世,则验证了“大数据+大模型”在相关性路径上的工程可行性。


她敏锐发现,模型规模和抽象深度并非天然绑定。相关性小模型时代积累的算法方法论,恰恰可以为她们的因果发现研究提供扎实的工具箱。如今在大模型时代,她能否将自己和导师的历史成就再推上一个新台阶?


黄碧薇决定顺势而为。博士毕业后,她加入UCSD担任助理教授,开启独立研究。她的目标很明确:把LLM的Scaling law和小模型时代几近完美的因果算法相结合,让模型在保持规模的同时,真正学到物理世界的因果结构。


这一次,挡在黄碧薇面前的是一片尚未开垦的荒原,她身后站着无数曾在前方引路的AI先驱们,推着她在因果AI和LLM交界的空白地带,开辟一个全新的战场。




1.“结构即智能”

经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图4


Scaling Law的裂痕,不止于表层的算力和数据瓶颈,更指向一个根本质疑:LLM的智能,到底是理解世界,还是机械记忆?


早在2024年,哈佛研究员Keyon Vafa的一篇论文对此已有印证。他通过实验发现,AI在学习数百万条导航指令后,能画出准确率高达99%的曼哈顿路线,地图上却凭空多出一条穿中央公园的路——Vafa指出,这是由于AI只是死记硬背零散路线的经验法则,并未对城市道路形成真正的认知地图。


这个结果直指今天LLM的本质困境:它能复现训练语料中的因果表述,却并不真正理解因果,本质上只是“鹦鹉学舌”。


根源在于Transformer和Scaling Law的内在局限。


Transformer的核心是注意力机制,学习的本质是token共现概率。它能预测A之后大概率是B,却学不会“因为A,所以B”背后的因果关系。按图灵奖得主Judea Pearl的“因果阶梯”划分,模型始终被锁在最底层的“关联”层级,无法触及“干预”与“反事实”。


那为什么LLM有时会表现出“懂得因果”的假象?Scaling Law起了关键作用。训练语料中大量“因为/所以”句式被模型靠规模记忆下来,但对于语料中未明确点明的因果关系,模型自然无从学习。


此前一项研究则表明,GPT-4在判断国际象棋合法开局时准确率接近90%,但当规则被轻微修改,将骑士与主教交换初始位置——这个反事实情景在训练数据中极为罕见,模型准确率便骤降至约54%,几乎等于随机猜测。


这恰恰暴露了Scaling Law背后“压缩即智能”理念的短板。黄碧薇并不否认这一理论对LLM的里程碑式引导,但在她看来,更准确的表述应是:结构即智能。


LLM的黑箱式压缩记住了海量token的共现模式,却没能把知识组织成可迁移、可干预的因果结构。一旦规则改变,便无能为力。


这种局限也直接导致了LLM的“幻觉”。比如,当“西雅图”和“华盛顿州”在语料中高频共现,GPT-3就倾向于把西雅图当作首府,这是相关性学习的典型陷阱。


相反,因果模型则理解数据背后的生成机制,知道答案是如何推导出来的,因此具备更强的可控性和可解释性。


因此,黄碧薇认为,只有经过结构化组织的信息,才能真正具备信息量,进而产生智能。换句话说,结构化的压缩,才是智能。


这一判断正在成为越来越多人的共识。DeepSeek-R1仅靠强化学习就让模型自行“顿悟”出因果推理能力;去年Ilya Sutskever公开断言Scaling Law即将触顶,AI行业必须从“资源竞赛”重返“范式创新”。


种种信号指向同一个事实。智能的边界,正从数据规模转向因果理解与泛化深度。


在「甲子光年」看来,这意味着AI竞争的核心逻辑正在发生根本性的位移。


过去三年,大模型赛道比拼的是“谁能拿到更多的数据、买到更多的显卡”。而在具身智能、科学发现等更复杂的领域,谁能率先构建出因果结构,让模型真正理解物理世界,谁就能在下一代AI竞赛中抢占身位。




2.拆解Aether AI的“因果大脑”

经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图5


就像LLM是“压缩即智能”的代表路线一样,“结构即智能”也需要一个具体的模型范式来完成从理论到产业的跨越。


目前,随着越来越多企业开始向世界模型靠拢,“世界模型”的概念边界也越发模糊。视频生成模型、3D重建模型,甚至连能聊天的语言模型都被包装成世界模型。


回归技术本质,黄碧薇的答案是因果世界模型,她认为,实现真正的世界模型道路,至少需要跨越三个台阶:表象生成、空间建模和因果想象


第一层是表象生成,以 Sora 为代表,画面逼真但经不起物理推敲,杯子碎了可以复原,手穿过桌子不会变形。


第二层是空间建模,以李飞飞提出的空间智能为代表。它进一步理解三维空间、物体位置和几何关系,知道“杯子在桌子上”,但如果缺少时间演化和动作后果预测,仍未必知道“推一下杯子会掉下去”。


第三层是因果想象。模型只有学到物理世界背后的因果结构,才能预测干预后的结果,并进行反事实推理。这也是机器人走向开放环境、长程任务和自主泛化的关键。


在这个递推框架之外,Yann LeCun提出的JEPA是另一条值得关注的路线。JEPA去掉了像素空间的解码器,通过过滤高频噪声来缩小模型尺寸。


黄碧薇认可这个思路的价值,但指出了两个问题。


一方面,去掉解码器虽然过滤了噪声,也同时丢掉了机械手与物体接触的瞬间、摩擦力变化这类非常细节的信息。这些细节对视频生成无关紧要,但对机器人操作却是精确控制的关键。另一方面,JEPA没有在隐空间里显式学习因果变量和因果结构。它跳过了渲染,直接进入某种抽象表征,但离真正的“想象”还有距离。


这几条路线的共同问题是,都没有真正触及物理世界的因果机制。


于是,黄碧薇将传统因果发现的方法论,包括从观测数据中自动抽取隐变量、识别因果方向、学习因果动力学,与大模型的海量数据处理能力结合起来,打造了让模型真正具备“想象”能力的因果世界模型新范式。


她认为,因果世界模型必须具备三个特征。


一是结构化隐表征,让模型从视频和传感器信号里学习背后的因果变量,而不是停留在token层面。在黄碧薇看来,观测到的变量往往不是真正的因果变量,必须深入到隐空间去学习。


二是因果结构,理解这些因果变量之间是怎么相互影响的。第一层回答“有哪些重要的东西”,第二层回答“它们之间是什么关系”。


三是因果动力学,掌握系统如何随时间演化,以及动作如何驱动状态变化。学到了真正的因果变量、因果结构和动力学,预测下一个状态就是自然而然的结果。


这套框架的增益直接体现在模型的泛化性和数据效率上。“假设有100个变量,传统方法在新环境中需要重新估计全部联合分布,但从因果角度看,可能只有两个变量的因果机制发生了变化,只需少量数据就能更新相应参数。”黄碧薇解释道。


这正是因果世界模型能用更高数据效率实现更强泛化性的根源。黄碧薇透露,团队目前仅用50条数据,就让一些开源模型在特定操作任务上的表现大幅提升。


但更高的数据效率并不意味着因果世界模型的训练不需要大数据。恰恰相反,因果世界模型同样建立在海量数据之上,只是处理方式不同。


Aether AI的因果世界模型无需人工标注因果结构,而是采用self-supervised learning和课程学习的方式,先喂简单干净的数据,再逐步增加难度,让光照、场景等因素自然变化。核心逻辑是在因果结构与某种统计性质之间建立一对一的映射,使模型能从统计性质反推因果结构,实现自监督学习。


然而,一个完整的智能系统不能只有世界模型。要完成复杂任务,必须有一个高层的智能体系统负责规划与决策,同时底层架构也需要从根上支持因果推理。


基于这一思路,Aether AI搭建了一个四层架构的“因果大脑”。


第一层是因果驱动的智能体系统,具备因果规划、归因、记忆,能反思上次任务为何失败,并据此调整策略。


第二层是因果世界模型。作为系统的认知核心,这一层负责理解物理世界的运行规律。它接收上层传来的子任务,在内部模拟“如果这样做,世界会怎样变化”,然后生成精确的任务指令,驱动上层的智能体系统。


第三层是模块化架构,目标是实现对人脑功能分区的工程模拟。


黄碧薇指出,当前混合专家模型(MoE)有一个普遍问题,就是专家模型之间功能高度重叠,往往只有一两个在真正干活,没有实现功能解耦。Aether AI希望实现像乐高积木一样功能独立的模块化架构,不同模块可拆可换,不互相纠缠。


第四层是Causation Transformer,在保持其可扩展性的前提下,加入对时间延迟、瞬时关系以及隐因子影响的建模能力,让底层从学习“相关性”升级为学习“因果性”。


这四层并非同步实现。黄碧薇的推进策略是,先在一二层跑通因果泛化,再逐步推进至三四层,后者所需的算力规模将提升一个数量级。她不避讳这一梯度,但强调每一步都在为最终的因果大模型积累经验、数据与工程能力。


而近期阶段性的落地切口,她选择了当前最具想象力、市场反响也最热烈的场景——具身智能。




3.机器人为什么要“懂因果”?

经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图6


之所以选择在具身智能落地,Aether AI并非是为了追逐热点。


从技术层面看,具身领域的数据相对规整。比如今年热度很高的Ego-Centric数据可以低成本大规模采集,普通人戴上摄像头做家务就能收集,远比依赖遥操数据容易规模化。仿真数据则能任意生成真实世界中很难采集的长尾场景和失败案例。


在Aether AI的数据规划中,仿真数据约占60%,第一人称数据约占30%,遥操仅占10%。


这与当下VLA路线大量依赖遥操数据堆量的思路截然不同。遥操数据采集成本高且难以scale,而且只能覆盖简单短程的成功任务,无法模拟杯子摔落等失败场景。Aether AI用更少的遥操、更多的结构化数据,反而能让模型学到更底层的物理规律,这正是因果范式数据效率更高的根源。


从市场层面看,具身智能下游的机器人厂商对“懂因果”的大脑需求旺盛。黄碧薇透露,已经有不少国内外机器人本体厂商表示,希望找到一个真正能理解物理世界的智能核心。


这些需求背后都是真实的落地瓶颈。2025年,机器人流畅完成各种操作的demo层出不穷,但背后是大量针对性的训练数据和精心的场景约束。一旦零件位置偏移几厘米或光照条件改变,机器人的表现就会断崖式下滑。


这些瓶颈追溯到技术源头,同样是由LLM范式的局限性导致的。“要让相关性模型做好复杂任务,必须同时满足数据足够多且模型足够大、训练数据覆盖现实中所有可能情况。这在开放的物理世界几乎不可能成立。”她说。


因果世界模型恰恰能从底层解决三个核心问题。


第一,在相同形态、不同规格的硬件本体之间实现跨本体泛化。例如,不同尺寸的夹爪或机械臂之间可以直接零样本迁移,从夹爪到灵巧手则需要引入少量数据微调即可跨本体迁移。对机器人厂商而言,这意味着无需为每一款硬件重新训练大脑,部署成本大幅降低。


第二,显著提升跨任务、跨环境的泛化能力。 传统机器人模型依赖大量场景数据,任务、物体或环境稍有变化,性能就容易下降。因果世界模型则学习“动作—物体—环境—结果”之间的本质因果关系,使机器人在新任务、新场景和新物体组合下,也能推断合理动作,具备更强的开放环境泛化能力。


第三,长程任务的理解与执行能力大幅提升。黄碧薇用一个具体场景来阐述:机器人被告知朋友要过来,它需要理解隐含意图是整理客厅、准备茶水。整理时发现桌上有私人账单和书,账单要放抽屉里,书要规整好;沏茶时要根据客人喜好准备杯子。在这个场景中,智能体系统负责高层任务规划,因果世界模型负责具体操作生成。


在「甲子光年」看来,这正是具身智能最值得期待的突破方向。过去两三年,行业大部分精力花在了数据采集和仿真渲染上,但让机器人像人一样举一反三的底层架构始终缺位。因果世界模型如果能在明年跑通,很可能成为具身智能的ChatGPT时刻。


按照黄碧薇的规划,Aether AI将在今年下半年发布第一版demo,展示机器人的长程推理与跨任务泛化能力。


对于因果范式下的具身智能,黄碧薇预计,明年初,机器人有望在操作任务上迎来“GPT 3.0时刻”,具备较好的泛化性能、非常高的成功率,以及长程任务能力;到明年下半年,结合移动与操作,机器人可以在开放环境中自由探索,达到“GPT 3.5时刻”,通过强化学习实现终身学习(lifelong learning),自己完成从未见过的新任务。


“明年下半年,公司计划推出具备自我探索能力的版本,让机器人在开放环境中通过强化学习不断更新策略。”黄碧薇透露。




4.“我们已经站在黎明前夕”

经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图7


不过,具身只是第一站。


“我希望像OpenAI引爆LLM范式一样,将Aether AI打造成引爆因果AI范式的里程碑式角色。”黄碧薇直言。


但她强调,Aether AI的自我定位首先是一个前沿实验室(Frontier Lab),核心使命是打造以因果智能为底层的通用模型主干(backbone)。具身智能只是验证模型能力的第一个锚点,未来这套架构还将向生物、金融等更复杂的领域延伸,但公司不会成为一个纯粹应用驱动的商业组织。


只是,因果AI的发展之路,或许比深度学习更为崎岖。其理论门槛极高,需要研究者具备多年理论、数学与统计的深厚积累,上手难度大,远不如深度学习那般容易吸引大批研究者涌入。


与此同时,学术圈长期以来更偏爱理论探索,对产业化工作的重视相对不足,这种“重理论、轻应用”的文化惯性,使得因果AI的成果长期停留在论文层面。两重因素叠加之下,真正精通因果AI的人才极为稀缺,且大部分仍留在学术界,难以向产业界扩散。


不过,理论壁垒深,意味着技术本身就具备短期内无法复制的护城河;人才稀缺,则更能发挥黄碧薇以及团队在因果AI领域深耕多年的先发优势;文化惯性存在,意味着缺少一个“把因果AI带出象牙塔”的关键角色。Aether AI就是要扮演这个角色。


黄碧薇反复强调一个观点:人并不擅长发现因果关系。某种程度上,人类大脑是很容易被“相关性”欺骗的,正因如此才会产生“额头大的人更聪明”这类误解。


而AI,理论上应该比人脑更容易学习因果关系,因为它可以更深地挖掘统计数据背后潜藏的因果结构,不受人类认知偏见的限制。


这或许是因果AI最迷人的地方。它试图走一条人类未曾走完的路,尝试用机器的方式,抵达因果理解的彼岸。


“我觉得我们离这一天很快了,已经站在黎明前夕了。”黄碧薇说。


(封面图来源:AI生成


经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图8




END.




经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图9
经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图10


经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图11经纬领投2000万美元,Aether AI让机器人学会举一反三|甲子光年图12

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 机器人
more
高中毕业也能进SK海力士研发部了,AI 时代还要卷文凭吗
一年跃升世界模型独角兽!Manifold AI流形空间再获数亿元融资
玩了一天AI支付宝,张嘴就能点麦当劳、收能量,超级App开始卷Agent OS了|附邀请码
当AI看病成为日常,阿福请医生回到“主驾”
刚刚,OpenAI把Transformer作者挖走了
Transformer传奇作者加入OpenAI!谷歌27亿美元也没留住
有智青年挑战赛暨全国AI+场景应用大赛决赛收官!在WAVES 2026的舞台上,挖掘中国下一代AI独角
库克:内存压力大,苹果将涨价;传 DeepSeek 估值超 4000 亿;联想推 AI 主机 MINI,2999 元 | 极客早知道
腾讯老兵+大厂00后新锐,码上飞想做的不只是AI Coding
G7领导人闭门会晤AI三巨头,剑指模型出口管制;xAI视频生成25秒出片,马斯克放言年底可生成完整电影;谷歌时隔6年再推AI音箱丨硅谷大事件
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号