经纬领投2000万美元，Aether AI让机器人学会举一反三｜甲子光年

用机器的方式，抵达人类未曾到达的因果彼岸。

作者｜刘杨楠

编辑｜栗子

过去半年，从硅谷到中关村，许多人都试图通过世界模型在物理世界复刻ChatGPT的传奇。可物理世界有太多语言无法描述的隐秘变量，例如摩擦力、温度、光照等等，无不影响着模型对现实世界的理解程度。光靠堆语言或视频数据和算力，已经不够用了。

而一笔刚刚落定的融资，将外界目光引向了一位来自加州大学圣地亚哥分校的学者。

6月18日，Aether AI宣布完成约2000万美元首轮融资，由经纬创投领投，英诺基金、SWC Global、九合创投联合参投。这家成立不久的AI公司所押注的方向，正是黄碧薇博士在CVPR 2026上抛出的答案——因果世界模型。

黄碧薇博士（Prof. Biwei Huang），图片来源：Aether AI

黄碧薇博士（Prof. Biwei Huang）是加州大学圣地亚哥分校（UCSD）助理教授、Aether AI创始人。她有一个看似并不合群的观察，认为今天所有主流大模型，本质上都只是在学相关性，而非因果性，这会让模型永远停留在数据的表层关联里，无法真正理解世界运行的逻辑。

这个判断建立在她过往十余年研究基础上，从上海中科院神经所到德国马普所（Max Planck Institute）、图宾根大学，最终进入该领域的开创地CMU，师从多位奠基人Kun Zhang, Clark Glymour, Peter Spirtes，和Bernhard Schölkopf。由此，她的研究路径几乎贯穿了因果AI从欧洲到美国的完整传承。

博士毕业那年，黄碧薇迎面撞上了ChatGPT掀起的LLM浪潮。尽管身处AI前沿研究多年，她对LLM并非一无所知，但ChatGPT在自然语言任务上的惊人效果，还是给她带来了巨大冲击。“方法明明非常简单粗暴，但效果确实很好。”她回忆道，“那时候我才意识到，即使在小数据上挖尽所有信息，也比不上在大数据上做一次简单的挖掘。”

冲击过后，她迅速冷静，开始重新审视前行方向。

黄碧薇系统回望过去30年的AI演变，从中拎出两条清晰的主线：一是模型规模从小到大的跃迁，二是抽象深度从相关性到因果性的递进。

具体来看，90年代初，基于相关性的小模型研究成为主流；2010年前后，她和CMU的导师们用小模型的成熟算法将因果发现推向了新的高度，开创了以因果为核心的小模型时代；而ChatGPT的横空出世，则验证了“大数据+大模型”在相关性路径上的工程可行性。

她敏锐发现，模型规模和抽象深度并非天然绑定。相关性小模型时代积累的算法方法论，恰恰可以为她们的因果发现研究提供扎实的工具箱。如今在大模型时代，她能否将自己和导师的历史成就再推上一个新台阶？

黄碧薇决定顺势而为。博士毕业后，她加入UCSD担任助理教授，开启独立研究。她的目标很明确：把LLM的Scaling law和小模型时代几近完美的因果算法相结合，让模型在保持规模的同时，真正学到物理世界的因果结构。

这一次，挡在黄碧薇面前的是一片尚未开垦的荒原，她身后站着无数曾在前方引路的AI先驱们，推着她在因果AI和LLM交界的空白地带，开辟一个全新的战场。

1.“结构即智能”

Scaling Law的裂痕，不止于表层的算力和数据瓶颈，更指向一个根本质疑：LLM的智能，到底是理解世界，还是机械记忆？

早在2024年，哈佛研究员Keyon Vafa的一篇论文对此已有印证。他通过实验发现，AI在学习数百万条导航指令后，能画出准确率高达99%的曼哈顿路线，地图上却凭空多出一条穿中央公园的路——Vafa指出，这是由于AI只是死记硬背零散路线的经验法则，并未对城市道路形成真正的认知地图。

这个结果直指今天LLM的本质困境：它能复现训练语料中的因果表述，却并不真正理解因果，本质上只是“鹦鹉学舌”。

根源在于Transformer和Scaling Law的内在局限。

Transformer的核心是注意力机制，学习的本质是token共现概率。它能预测A之后大概率是B，却学不会“因为A，所以B”背后的因果关系。按图灵奖得主Judea Pearl的“因果阶梯”划分，模型始终被锁在最底层的“关联”层级，无法触及“干预”与“反事实”。

那为什么LLM有时会表现出“懂得因果”的假象？Scaling Law起了关键作用。训练语料中大量“因为/所以”句式被模型靠规模记忆下来，但对于语料中未明确点明的因果关系，模型自然无从学习。

此前一项研究则表明，GPT-4在判断国际象棋合法开局时准确率接近90%，但当规则被轻微修改，将骑士与主教交换初始位置——这个反事实情景在训练数据中极为罕见，模型准确率便骤降至约54%，几乎等于随机猜测。

这恰恰暴露了Scaling Law背后“压缩即智能”理念的短板。黄碧薇并不否认这一理论对LLM的里程碑式引导，但在她看来，更准确的表述应是：结构即智能。

LLM的黑箱式压缩记住了海量token的共现模式，却没能把知识组织成可迁移、可干预的因果结构。一旦规则改变，便无能为力。

这种局限也直接导致了LLM的“幻觉”。比如，当“西雅图”和“华盛顿州”在语料中高频共现，GPT-3就倾向于把西雅图当作首府，这是相关性学习的典型陷阱。

相反，因果模型则理解数据背后的生成机制，知道答案是如何推导出来的，因此具备更强的可控性和可解释性。

因此，黄碧薇认为，只有经过结构化组织的信息，才能真正具备信息量，进而产生智能。换句话说，结构化的压缩，才是智能。

这一判断正在成为越来越多人的共识。DeepSeek-R1仅靠强化学习就让模型自行“顿悟”出因果推理能力；去年Ilya Sutskever公开断言Scaling Law即将触顶，AI行业必须从“资源竞赛”重返“范式创新”。

种种信号指向同一个事实。智能的边界，正从数据规模转向因果理解与泛化深度。

在「甲子光年」看来，这意味着AI竞争的核心逻辑正在发生根本性的位移。

过去三年，大模型赛道比拼的是“谁能拿到更多的数据、买到更多的显卡”。而在具身智能、科学发现等更复杂的领域，谁能率先构建出因果结构，让模型真正理解物理世界，谁就能在下一代AI竞赛中抢占身位。

2.拆解Aether AI的“因果大脑”

就像LLM是“压缩即智能”的代表路线一样，“结构即智能”也需要一个具体的模型范式来完成从理论到产业的跨越。

目前，随着越来越多企业开始向世界模型靠拢，“世界模型”的概念边界也越发模糊。视频生成模型、3D重建模型，甚至连能聊天的语言模型都被包装成世界模型。

回归技术本质，黄碧薇的答案是因果世界模型，她认为，实现真正的世界模型道路，至少需要跨越三个台阶：表象生成、空间建模和因果想象。

第一层是表象生成，以 Sora 为代表，画面逼真但经不起物理推敲，杯子碎了可以复原，手穿过桌子不会变形。

第二层是空间建模，以李飞飞提出的空间智能为代表。它进一步理解三维空间、物体位置和几何关系，知道“杯子在桌子上”，但如果缺少时间演化和动作后果预测，仍未必知道“推一下杯子会掉下去”。

第三层是因果想象。模型只有学到物理世界背后的因果结构，才能预测干预后的结果，并进行反事实推理。这也是机器人走向开放环境、长程任务和自主泛化的关键。

在这个递推框架之外，Yann LeCun提出的JEPA是另一条值得关注的路线。JEPA去掉了像素空间的解码器，通过过滤高频噪声来缩小模型尺寸。

黄碧薇认可这个思路的价值，但指出了两个问题。

一方面，去掉解码器虽然过滤了噪声，也同时丢掉了机械手与物体接触的瞬间、摩擦力变化这类非常细节的信息。这些细节对视频生成无关紧要，但对机器人操作却是精确控制的关键。另一方面，JEPA没有在隐空间里显式学习因果变量和因果结构。它跳过了渲染，直接进入某种抽象表征，但离真正的“想象”还有距离。

这几条路线的共同问题是，都没有真正触及物理世界的因果机制。

于是，黄碧薇将传统因果发现的方法论，包括从观测数据中自动抽取隐变量、识别因果方向、学习因果动力学，与大模型的海量数据处理能力结合起来，打造了让模型真正具备“想象”能力的因果世界模型新范式。

她认为，因果世界模型必须具备三个特征。

一是结构化隐表征，让模型从视频和传感器信号里学习背后的因果变量，而不是停留在token层面。在黄碧薇看来，观测到的变量往往不是真正的因果变量，必须深入到隐空间去学习。

二是因果结构，理解这些因果变量之间是怎么相互影响的。第一层回答“有哪些重要的东西”，第二层回答“它们之间是什么关系”。

三是因果动力学，掌握系统如何随时间演化，以及动作如何驱动状态变化。学到了真正的因果变量、因果结构和动力学，预测下一个状态就是自然而然的结果。

这套框架的增益直接体现在模型的泛化性和数据效率上。“假设有100个变量，传统方法在新环境中需要重新估计全部联合分布，但从因果角度看，可能只有两个变量的因果机制发生了变化，只需少量数据就能更新相应参数。”黄碧薇解释道。

这正是因果世界模型能用更高数据效率实现更强泛化性的根源。黄碧薇透露，团队目前仅用50条数据，就让一些开源模型在特定操作任务上的表现大幅提升。

但更高的数据效率并不意味着因果世界模型的训练不需要大数据。恰恰相反，因果世界模型同样建立在海量数据之上，只是处理方式不同。

Aether AI的因果世界模型无需人工标注因果结构，而是采用self-supervised learning和课程学习的方式，先喂简单干净的数据，再逐步增加难度，让光照、场景等因素自然变化。核心逻辑是在因果结构与某种统计性质之间建立一对一的映射，使模型能从统计性质反推因果结构，实现自监督学习。

然而，一个完整的智能系统不能只有世界模型。要完成复杂任务，必须有一个高层的智能体系统负责规划与决策，同时底层架构也需要从根上支持因果推理。

基于这一思路，Aether AI搭建了一个四层架构的“因果大脑”。

第一层是因果驱动的智能体系统，具备因果规划、归因、记忆，能反思上次任务为何失败，并据此调整策略。

第二层是因果世界模型。作为系统的认知核心，这一层负责理解物理世界的运行规律。它接收上层传来的子任务，在内部模拟“如果这样做，世界会怎样变化”，然后生成精确的任务指令，驱动上层的智能体系统。

第三层是模块化架构，目标是实现对人脑功能分区的工程模拟。

黄碧薇指出，当前混合专家模型（MoE）有一个普遍问题，就是专家模型之间功能高度重叠，往往只有一两个在真正干活，没有实现功能解耦。Aether AI希望实现像乐高积木一样功能独立的模块化架构，不同模块可拆可换，不互相纠缠。

第四层是Causation Transformer，在保持其可扩展性的前提下，加入对时间延迟、瞬时关系以及隐因子影响的建模能力，让底层从学习“相关性”升级为学习“因果性”。

这四层并非同步实现。黄碧薇的推进策略是，先在一二层跑通因果泛化，再逐步推进至三四层，后者所需的算力规模将提升一个数量级。她不避讳这一梯度，但强调每一步都在为最终的因果大模型积累经验、数据与工程能力。

而近期阶段性的落地切口，她选择了当前最具想象力、市场反响也最热烈的场景——具身智能。

3.机器人为什么要“懂因果”？

之所以选择在具身智能落地，Aether AI并非是为了追逐热点。

从技术层面看，具身领域的数据相对规整。比如今年热度很高的Ego-Centric数据可以低成本大规模采集，普通人戴上摄像头做家务就能收集，远比依赖遥操数据容易规模化。仿真数据则能任意生成真实世界中很难采集的长尾场景和失败案例。

在Aether AI的数据规划中，仿真数据约占60%，第一人称数据约占30%，遥操仅占10%。

这与当下VLA路线大量依赖遥操数据堆量的思路截然不同。遥操数据采集成本高且难以scale，而且只能覆盖简单短程的成功任务，无法模拟杯子摔落等失败场景。Aether AI用更少的遥操、更多的结构化数据，反而能让模型学到更底层的物理规律，这正是因果范式数据效率更高的根源。

从市场层面看，具身智能下游的机器人厂商对“懂因果”的大脑需求旺盛。黄碧薇透露，已经有不少国内外机器人本体厂商表示，希望找到一个真正能理解物理世界的智能核心。

这些需求背后都是真实的落地瓶颈。2025年，机器人流畅完成各种操作的demo层出不穷，但背后是大量针对性的训练数据和精心的场景约束。一旦零件位置偏移几厘米或光照条件改变，机器人的表现就会断崖式下滑。

这些瓶颈追溯到技术源头，同样是由LLM范式的局限性导致的。“要让相关性模型做好复杂任务，必须同时满足数据足够多且模型足够大、训练数据覆盖现实中所有可能情况。这在开放的物理世界几乎不可能成立。”她说。

因果世界模型恰恰能从底层解决三个核心问题。

第一，在相同形态、不同规格的硬件本体之间实现跨本体泛化。例如，不同尺寸的夹爪或机械臂之间可以直接零样本迁移，从夹爪到灵巧手则需要引入少量数据微调即可跨本体迁移。对机器人厂商而言，这意味着无需为每一款硬件重新训练大脑，部署成本大幅降低。

第二，显著提升跨任务、跨环境的泛化能力。传统机器人模型依赖大量场景数据，任务、物体或环境稍有变化，性能就容易下降。因果世界模型则学习“动作—物体—环境—结果”之间的本质因果关系，使机器人在新任务、新场景和新物体组合下，也能推断合理动作，具备更强的开放环境泛化能力。

第三，长程任务的理解与执行能力大幅提升。黄碧薇用一个具体场景来阐述：机器人被告知朋友要过来，它需要理解隐含意图是整理客厅、准备茶水。整理时发现桌上有私人账单和书，账单要放抽屉里，书要规整好；沏茶时要根据客人喜好准备杯子。在这个场景中，智能体系统负责高层任务规划，因果世界模型负责具体操作生成。

在「甲子光年」看来，这正是具身智能最值得期待的突破方向。过去两三年，行业大部分精力花在了数据采集和仿真渲染上，但让机器人像人一样举一反三的底层架构始终缺位。因果世界模型如果能在明年跑通，很可能成为具身智能的ChatGPT时刻。

按照黄碧薇的规划，Aether AI将在今年下半年发布第一版demo，展示机器人的长程推理与跨任务泛化能力。

对于因果范式下的具身智能，黄碧薇预计，明年初，机器人有望在操作任务上迎来“GPT 3.0时刻”，具备较好的泛化性能、非常高的成功率，以及长程任务能力；到明年下半年，结合移动与操作，机器人可以在开放环境中自由探索，达到“GPT 3.5时刻”，通过强化学习实现终身学习（lifelong learning），自己完成从未见过的新任务。

“明年下半年，公司计划推出具备自我探索能力的版本，让机器人在开放环境中通过强化学习不断更新策略。”黄碧薇透露。