点击下方卡片,关注【Xbotics具身智能实验室】公众号
更多具身干货,欢迎加入(戳我)
👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide
👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job
你想要的这里都有~~
本文速览

大晓机器人具身大模型科学家,香港中文大学多媒体实验室(CUHK MMLab)教授 李鸿升
本期 Xbotics具身智能社区对话大晓机器人具身大模型科学家,香港中文大学多媒体实验室(CUHK MMLab)教授 李鸿升,围绕 HomeWorld、Physical AI、ACE 具身研发范式,以及大哓机器人如何构建具身智能“大脑”和数据飞轮展开讨论,核心看点如下:
HomeWorld 不是一个简单的“自动生成房子”系统。它真正想解决的问题,是为机器人构建一个完整、可交互、可用于仿真训练的全屋虚拟环境。
李鸿升认为,现有很多三维空间生成工作虽然可以生成可观看、可漫游的空间,但往往无法直接用于机器人训练。机器人需要的不只是点云或 mesh,而是可分割、可交互、带有物理属性和场景关系的环境。
在 HomeWorld 中,一个杯子不只是一个三维模型。它还需要重量、碰撞体、摩擦系数,以及“能放在哪里、如何被使用、如何被机器人抓取”的生活常识和物理常识。
从 CV、3D 感知、自动驾驶、多模态理解走向具身智能,李鸿升认为这既是主动转向,也是过去研究积累的自然延伸。AI 正在从“识别世界”走向“进入世界”。
他认为,从识别世界到进入世界,最大的研究范式变化之一是训练数据采集方式。机器人需要采集自己进入真实环境、与世界交互的数据,而不只是识别图像或回答问题。
大晓机器人提出 ACE 范式,从 machine-centric 转向 human-centric。相比围绕机器人本体和遥操作采集数据,以人为中心的数据采集成本更低、效率更高,环境多样性也更强。
A1 具身超级大脑模组并不意味着所有能力都能跨本体通用。空间理解、导航、任务分解等高层能力可以共享,但手部操作、底层执行和运动控制仍需要针对不同本体适配。
从 Demo 到商业化落地,李鸿升认为成本、长尾场景、安全可靠性和真实环境泛化能力都很关键。短期来看,任务边界相对清晰、成本可控、能明确节省人力的场景会更快落地。
谈到 Physical AI,他强调其核心是理解和预测周围环境,不仅包括空间和物理规律,也包括人类意图以及人与环境交互后可能产生的结果。
大晓机器人的路线可以理解为一个数据飞轮:真实场景数据进入世界模型,世界模型提升机器人能力,机器人落地后继续产生新数据,再反向推动模型和产品迭代。
对于开放生态,李鸿升认为很难由一家企业单独完成从模型、本体、数据到场景的全部闭环。大晓的优势在 AI 大脑层,但仍需要与本体厂商、供应链、场景伙伴长期协同。
面对行业热潮,他对“最大误判”保持克制判断:具身智能技术路线变化太快,从 VLA 到世界动作模型,行业仍未收敛,现阶段很难断言哪条路线一定正确或错误。
在他看来,一个真正聪明的机器人,首先需要更强的泛化能力。这种泛化不仅面向机器人本体,也面向环境、任务边界和真实应用场景。
一、为机器人造一个可训练的家

Xbotics具身智能社区:
HomeWorld 这篇工作在业内很受关注,真正想解决的是什么?
李鸿升:
现在确实有很多三维空间生成的工作。比如一些世界模型公司,它们可以生成类似三维空间的环境,人可以在里面漫游。但这里面有一些不同的类别。
很多世界模型生成的三维空间,本质上还是比较“糊”的。无论是点云还是 mesh,它们往往都是粘在一起的。比如一个室内环境里,地面、桌子、桌面上的碗、苹果、杯子,可能都粘附在一起。它们虽然形成了一个虚拟三维空间,但这个空间没法真正用于机器人训练。
还有另一类工作,是生成虚拟桌面环境。比如在一个桌面上生成杯子、书本等单独物体,并让这些物体具备一定可操作性。但这类工作通常最多只能做到桌面级,或者单房间级的生成。
我们看了之后发现,不管是学界还是工业界,都比较缺少一种能生成全屋环境、并且所有物体都可以交互的虚拟训练场。也就是说,机器人需要的不只是一个可以观看或漫游的三维空间,而是一个完整的、可交互的、能用于仿真训练的家庭环境。我们看到这个缺口后,就很积极地做了 HomeWorld 这项工作。

Xbotics具身智能社区:
为什么您和团队会选择从“整屋场景生成”这个角度切入具身智能?
李鸿升:
我们观察到,现在很多数据集和 benchmark,还是集中在桌面整理、桌面物品摆放这类问题上。当然,这些问题目前也还不能说已经被完美解决,大家很大一部分精力仍然放在这里。
但如果我们要构建一个真正可以在家居环境、工作环境中服务人的机器人,它除了能完成单桌面的任务,还需要具备更大范围的能力。比如全屋导航、全屋搜索、根据指令在家庭环境中完成长程任务。
举一个最简单的例子:在一个家居场景中,人可能在卧室里,让机器人帮忙取一个水果。机器人为了完成“取水果”这个动作,第一步就需要理解全屋的大致布局。它要知道自己在卧室,水果可能在哪里。它可能推断苹果在客厅茶几上,也可能在厨房里,或者在冰箱里。它需要在一个全屋仿真环境中进行导航、搜索和任务执行。
只有当我们有这样的全屋虚拟环境后,训练机器人完成这类任务才有可能。
Xbotics具身智能社区:
对于机器人来说,日常物体之间的位置关系、使用方式、物理约束,可能都很难。
一个机器人从“认识杯子”,到真正理解杯子在生活场景中如何被正确使用,中间差在哪里?
李鸿升:
这里可能要分几个层面来看。
首先是建模。一个杯子,并不是说有了三维模型以后,就可以直接用来训练机器人。它还需要被赋予物理属性,比如杯子的重量、三维碰撞体、表面摩擦系数等。只有这些属性具备之后,杯子才能在家居环境中真正被使用和操作。
其次是物体和环境之间的关系。不同物体可能放在不同的平台上。比如杯子可能放在桌面上,也可能放在厨房台面上。不同平台、不同支撑面、不同摆放方式,都会影响机器人如何接近、抓取和移动它。
因此,对单个物体来说,我们需要自动化地构建它的物理属性;对整体环境来说,我们也需要自动生成不同平台上的物品布局,并让这些物品具备合理的物理属性。如果完全靠人工建模,成本会非常高。
只有当这些自动化建模完成后,机器人训练才可能获得我们日常生活中的常识,以及物理世界的常识。
二、AI 的下一步,是“进入世界”
Xbotics具身智能社区:
对您个人来说,从视觉感知走到具身智能,这是一次主动转变,还是过去研究积累自然推动到了这里?
李鸿升:
我觉得两者都有。一方面,这确实是一次转变;另一方面,它也和我们过去的研究积累有关系。
过去几年,我们确实看到很多多模态大模型、VLM 变得越来越实用。但目前这些大模型的应用,很多还是偏软件、偏虚拟空间的应用,比如帮助人回答问题,或者完成一些数字世界中的任务。
从工业界来看,竞争态势非常激烈。不过在这块,研究属性其实在逐渐变少,更多是在已有模型范式中做进一步 scaling up。
而我们过去组里做过各种大模型,也做过很多 CV 和感知模型。我们会觉得,既然这些偏软件的方向研究属性在下降,我们还是希望“脱虚向实”,转到具身应用中,把过去的一些积累真正放过来,做一些有价值、有影响力的工作。
Xbotics具身智能社区:
从“识别世界”到“进入世界”,对 AI 研究范式最大的改变是什么?
李鸿升:
我觉得最大的改变,可能还是训练数据的收集方式。
过去识别类数据的收集量已经很大了。但当 AI 进入世界以后,它不是只看图像,而是有一个实体进入世界,这个实体可以和周围空间交互。因此,过去几年大家都在探索,怎样更好地采集机器人进入世界、与世界交互的训练数据。
比如机器人遥操作方案、大规模素材场建设,本质上都是机器人进入世界后,为了训练而进行的大规模数据采集。
我们去年也提出过一些环境式素材采集方案。现在大家都在关注不同的素材和数据采集方式。我认为,进入世界之后最大的研究范式变化之一,就是如何更高效地采集机器人和世界交互的数据。目前这方面范式还比较多,很多问题也还没有完全解决。
Xbotics具身智能社区:
大模型在自动驾驶、具身智能、3D 世界生成之间已经有很多应用。
在您看来,这些方向背后有没有一个共同问题?是不是都在回答:AI 如何在物理世界里建立稳定、可行动的理解?
李鸿升:
是的。这几个研究层面有很多可以共享的基座模型和方法。
比如现在用得比较多的视频生成模型、空间感知模型、空间生成模型,以及对未来环境的预测模型。自动驾驶和 3D 世界生成,传统上都可以做到周围环境生成,以及环境变化预测。
但它们对于交互的能力相对较弱。无论是对交互的预测,还是对动作驱动交互的能力,都还不够。机器人测试和机器人交互数据,也有它独有的问题。
因此,我们可以利用以前的一些研究基座模型和方法,把它们拓展到机器人空间里,但还需要进一步补上交互、驱动和执行这一层。
Xbotics具身智能社区:
您怎么理解 Physical AI?它和过去大家讲的Embodied AI有什么关键差异?
李鸿升:
我觉得 Physical AI 最主要的,是能够理解周围环境,并且预测周围环境。
这里的理解和预测,不只是看见周围有什么,而是需要对周围空间、物理规律做比较精准的预测和判断。它和已有概念的主要区别,可能就在于这一点:对世界的认知会更加精准。
它不仅要理解空间和物理本身的规律,还要理解一些人类意图。比如一个机器人递出杯子,一个人伸手过去接,这个动作意味着人愿意接这个杯子。机器人需要通过周围环境和人的动作,去判断人的 intention,并据此进行推理。
我觉得 Physical AI 包含几个层面:空间理解、物理规律理解、对未来的预测,以及对人类意图和交互后果的理解。
三、别先卷本体,先把大脑做聪明

Xbotics具身智能社区:
大哓机器人提出的 ACE 范式,强调从 machine-centric 转向 human-centric,也就是从“以机器为中心”转向“以人为中心”。
传统依赖机器人本体和遥操作数据的研发路径,会在具身智能规模化时遇到怎样的瓶颈?
李鸿升:
目前主流路线,或者说上一个阶段比较主流的范式,是以遥操作为主。也就是部署遥操作机器、机器人和操作员,构建数采厂,然后采集大规模以机器为中心的数据。
这条路径有几个瓶颈。第一个是数采厂本身建设成本很高。第二个是遥操作动作效率比较低。虽然现在遥操作已经做了很多工程优化,但仍然会有时延。第三个是很多精细化操作,都需要依赖人手,而通过遥操作很难实现。
比如人用手拿起桌上的一支笔再进行写字,这是一个很自然、很简单的动作。但如果通过遥操作让机器人完成,就会比较困难。
所以我们希望转向以人为中心的数据采集。一方面,单体设备成本更低,不管是从单体采集设备看,还是和机器人本体相比,成本都更低。另一方面,也不再需要专门的数采厂。如果有一些比较便携、低成本的设备,就可以非常高效地、大规模地采集以人为中心的数据。
人们在日常生活和工作中自然产生的数据,采集效率更高,环境多样性也更高。我们发现,这样一批数据积累速度会非常快,所以从各方面来看,我们认为这块未来潜力更大。

Xbotics具身智能社区:
大晓机器人首发产品 A1 具身超级大脑模组,致力于解决 cross-embodiment,也就是跨本体泛化的问题。
以四足机器人为例,它们的结构、运动方式和任务场景都不同。所谓一个通用的机器人超级大脑,到底哪些能力可以跨本体共享?哪些部分又必须针对具体硬件适配?
李鸿升:
目前我们主要关注两类构型:一类是机器狗,另一类是人形机器人。
在 A1 超级大脑模组中,像导航、空间智能判断等基础能力,在这两类本体之间是可以共享的。还有一些比较泛化的空间智能能力,比如任务分解、长程任务完成等,这些数据基座模型也可以共享。
但如果涉及手部操作,就需要单独构建一些模型。比如对物品的操纵、摆放、抓取等,它们需要和具体本体的硬件、控制能力结合。
所以可以理解为:高层能力可以共享,比如空间理解、导航、任务拆解;但底层执行、手部操纵、具体运动控制,仍然要针对不同本体做适配。

Xbotics具身智能社区:
如果把大晓机器人现在的路线连起来看,会看到几个关键词:环境式数据采集、开悟世界模型、AI 超级大脑和开放生态。它们不像是孤立产品,更像是一个闭环。
是否可以这样理解:真实场景的数据进入世界模型,世界模型提升机器人能力,机器人落地后又产生新的数据,这样形成一个数据飞轮?
李鸿升:
我觉得你说得挺对的。我们现在的数据构造,确实是在一个数据飞轮里不断进行。
当我们只有一个机器人本体,或者只有一些采集设备,它必须真正进入生产环境和业务场景,才能快速收集到更新的数据。通过这些数据,我们才能发现已有模型的短板和缺陷,再重新做更精细化的数据收集和标注。
所以,让机器人能力进入业务场景,让数据飞轮转起来,是非常重要的。这样才能让整个模型研发和产品迭代速度变快。

四、具身智能不缺热度,缺的是交付
Xbotics具身智能社区:
现在很多公司都反复强调开放生态,比如不同本体厂商、芯片厂商、硬件云服务商、场景伙伴一起合作。具身智能看起来不像移动互联网时代那种单一 App 生态,而更像一个很重的产业系统。
您认为一家企业有没有可能单独完成从模型到本体、再到数据、再到场景的全部闭环?
李鸿升:
我觉得一家企业可能还是很难做到全部闭环。因为从模型本体,到数据,再到下游不同场景,链条非常长。如果再考虑下游场景的差异,比如一个赛道里有很多细分方向,每个细分赛道可能都需要下游公司做单独开发。
不同公司肯定有各自传统优势。像大晓机器人,传统上是在 AI 大模型和“大脑”层面起家,所以我们在大脑这块会有优势。当然,上下游我们也都会有布局,但我们最独特的优势还是在 AI 大脑层。
未来还是需要和不同行业公司、生态环境里的公司互相配合、互相帮助。比如在具身这个赛道里,供应链厂家经常很难替换。企业开始做战略合作后,往往会长期一起做研发、一起打磨产品。
以我们现在的大脑模组为例,已经适配了一些机器狗和人形机器人。但每家 API 都有差异,不可能一下子适配十几二十家本体厂商。所以生态协同的层面,更多是一些企业抱团发展、长期合作。

Xbotics具身智能社区:
过去一年我们看到很多机器人 Demo 非常精彩,但从 Demo 到稳定商业化落地,中间其实还有很长一段距离。您觉得这个距离主要难在哪里?是长尾场景、安全可靠性、成本,还是模型在真实环境里的泛化能力?
李鸿升:
这些点都有。长尾场景、成本、安全可靠性、真实环境泛化能力,都是从 Demo 到商业化落地时会遇到的问题。
目前我们也接触到一些商业客户。很多客户判断的方式非常现实,就是看这件事能不能盈利。比如如果单机成本能够做到 10 万以下,他们就愿意采购,因为分析下来确实能够节省人力。
成本现在还是比较重要的。当然,未来量上来以后,成本肯定可以继续压下去。比如汽车行业,比亚迪一台车只要产量足够大,整个 BOM 成本就可以压得非常低。机器人也类似,只要应用场景变多、产量变大,很多成本问题是可以被解决的。
但是不同场景对泛化能力的要求差距很大。比如物流场景,可能只要求机器人在一些简单物流场景中泛化;但如果我们希望做家庭服务机器人,它的泛化 scope 就大很多,整个任务边界更广。
所以我个人觉得,短期内一些细分场景会先出现落地成果。当单一本体成本压下去以后,如果它的任务边界相对窄,就能比较快落地。未来一两年,我们可能会看到大哓在一些大规模应用场景中取得成果。但这和大家想象中的“机器人在家里什么都能干”还不一样,任务边界可能会先收缩一些。
Xbotics具身智能社区:
今天具身智能行业非常火热,资本、创业公司和学术界都在快速进入。但越热的时候,可能越容易出现一些误判。
如果三年后回看今天,您觉得这个行业最大的误判可能会是什么?
李鸿升:
这个其实很难判断。很多创业公司赛道都类似,因为现在这些技术路线都还没有完全收敛。
举例来说,一开始大家关注具身大脑,后来押注 VLA,最近又觉得动作模型的机会可能比 VLA 更大。所以现在很难判断哪些会是重大的误判。
很多公司现在其实都是多头押宝的状态。包括我们自己做研究也是这样,我们会说“热问题要热做,冷问题也要烧热”。我们会对技术路线做判断,会觉得有些路线现在可能不是主流,但仍然会投入一些人力和算力。
因为这个行业里,两三年内技术路线变化趋势非常快。我觉得目前做预判还是比较困难的。
Xbotics具身智能社区:
回到 HomeWorld 这项工作本身,如果要向一个非技术背景的读者解释它为什么重要,您会怎么讲?
李鸿升:
对我们来说,HomeWorld 是为中国家庭构建了一个有中国特色的全屋布局,并且全屋物体可以交互的机器人虚拟训练场。
只有当我们有这样的虚拟机器人训练场后,未来家居机器人进入中国家庭、为每一个中国家庭做服务,才有可能。
Xbotics具身智能社区:
大晓机器人有一句很有画面感的表达:让机器人拥有“聪明的大脑”和“有趣的灵魂”。
最后想请您谈谈,在您看来,一个真正聪明的机器人,首先应该学会什么?
李鸿升:
我觉得对聪明的机器人来说,它所要求的能力边界还是比较广的。其中很重要的一点,是强泛化性。
当然,泛化性也可以限定在具体场景里。比如零售打包场景,它的泛化性可能只局限在打包台和货架上。但如果我们追求更宽广的应用场景,比如家庭机器人,类似请一个保姆,那么对泛化能力的要求就会高很多。
家庭机器人不仅需要对机器人本体有更强泛化,也需要对环境有更强泛化,还要对任务边界有更强泛化。动作边界也会更高。
所以我觉得,一个更聪明的大脑,最重要的还是更强的泛化性。不管是对机器人本体、环境,还是任务边界本身,都是这样。
总结
这场对话让我们看到,Kairos-HomeWorld 的意义并不止于“生成一个房子”,而是在为机器人搭建一个真正可理解、可交互、可训练的物理世界。
对大晓机器人而言,“造世界”不是炫技式的三维生成,而是让机器人从识别空间走向进入空间,从理解物体走向理解关系、动作与后果。
无论是 ACE 以人为中心的数据范式、A1 具身超级大脑模组,还是围绕真实场景持续转动的数据飞轮,其背后都指向同一个目标:让机器人在复杂、多变、充满长尾的现实世界中获得更强的泛化能力。
具身智能的落地不会一蹴而就,但正是在这样对世界、数据、本体与生态的长期构建中,机器人距离真正拥有“聪明的大脑”和“有趣的灵魂”,才会越来越近。
-END-
Ask Me Anything|提问箱
❝对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。
怎么问:在评论区留言,或私信公众号
我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。
提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。
一起把问题变成知识,推动社区进步 🚀
