点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

本文速览

对话李鸿升：机器人也需要一个"家"？Kairos-HomeWorld 背后，大晓的造世界野心图1

大晓机器人具身大模型科学家，香港中文大学多媒体实验室（CUHK MMLab）教授李鸿升

本期 Xbotics具身智能社区对话大晓机器人具身大模型科学家，香港中文大学多媒体实验室（CUHK MMLab）教授李鸿升，围绕 HomeWorld、Physical AI、ACE 具身研发范式，以及大哓机器人如何构建具身智能“大脑”和数据飞轮展开讨论，核心看点如下：

HomeWorld 不是一个简单的“自动生成房子”系统。它真正想解决的问题，是为机器人构建一个完整、可交互、可用于仿真训练的全屋虚拟环境。

李鸿升认为，现有很多三维空间生成工作虽然可以生成可观看、可漫游的空间，但往往无法直接用于机器人训练。机器人需要的不只是点云或 mesh，而是可分割、可交互、带有物理属性和场景关系的环境。

在 HomeWorld 中，一个杯子不只是一个三维模型。它还需要重量、碰撞体、摩擦系数，以及“能放在哪里、如何被使用、如何被机器人抓取”的生活常识和物理常识。

从 CV、3D 感知、自动驾驶、多模态理解走向具身智能，李鸿升认为这既是主动转向，也是过去研究积累的自然延伸。AI 正在从“识别世界”走向“进入世界”。

他认为，从识别世界到进入世界，最大的研究范式变化之一是训练数据采集方式。机器人需要采集自己进入真实环境、与世界交互的数据，而不只是识别图像或回答问题。

大晓机器人提出 ACE 范式，从 machine-centric 转向 human-centric。相比围绕机器人本体和遥操作采集数据，以人为中心的数据采集成本更低、效率更高，环境多样性也更强。

A1 具身超级大脑模组并不意味着所有能力都能跨本体通用。空间理解、导航、任务分解等高层能力可以共享，但手部操作、底层执行和运动控制仍需要针对不同本体适配。

从 Demo 到商业化落地，李鸿升认为成本、长尾场景、安全可靠性和真实环境泛化能力都很关键。短期来看，任务边界相对清晰、成本可控、能明确节省人力的场景会更快落地。

谈到 Physical AI，他强调其核心是理解和预测周围环境，不仅包括空间和物理规律，也包括人类意图以及人与环境交互后可能产生的结果。

大晓机器人的路线可以理解为一个数据飞轮：真实场景数据进入世界模型，世界模型提升机器人能力，机器人落地后继续产生新数据，再反向推动模型和产品迭代。

对于开放生态，李鸿升认为很难由一家企业单独完成从模型、本体、数据到场景的全部闭环。大晓的优势在 AI 大脑层，但仍需要与本体厂商、供应链、场景伙伴长期协同。

面对行业热潮，他对“最大误判”保持克制判断：具身智能技术路线变化太快，从 VLA 到世界动作模型，行业仍未收敛，现阶段很难断言哪条路线一定正确或错误。

在他看来，一个真正聪明的机器人，首先需要更强的泛化能力。这种泛化不仅面向机器人本体，也面向环境、任务边界和真实应用场景。

一、为机器人造一个可训练的家

对话李鸿升：机器人也需要一个"家"？Kairos-HomeWorld 背后，大晓的造世界野心图2

Xbotics具身智能社区：

HomeWorld 这篇工作在业内很受关注，真正想解决的是什么？

李鸿升：

现在确实有很多三维空间生成的工作。比如一些世界模型公司，它们可以生成类似三维空间的环境，人可以在里面漫游。但这里面有一些不同的类别。

很多世界模型生成的三维空间，本质上还是比较“糊”的。无论是点云还是 mesh，它们往往都是粘在一起的。比如一个室内环境里，地面、桌子、桌面上的碗、苹果、杯子，可能都粘附在一起。它们虽然形成了一个虚拟三维空间，但这个空间没法真正用于机器人训练。

还有另一类工作，是生成虚拟桌面环境。比如在一个桌面上生成杯子、书本等单独物体，并让这些物体具备一定可操作性。但这类工作通常最多只能做到桌面级，或者单房间级的生成。

我们看了之后发现，不管是学界还是工业界，都比较缺少一种能生成全屋环境、并且所有物体都可以交互的虚拟训练场。也就是说，机器人需要的不只是一个可以观看或漫游的三维空间，而是一个完整的、可交互的、能用于仿真训练的家庭环境。我们看到这个缺口后，就很积极地做了 HomeWorld 这项工作。

对话李鸿升：机器人也需要一个"家"？Kairos-HomeWorld 背后，大晓的造世界野心图3

Xbotics具身智能社区：

为什么您和团队会选择从“整屋场景生成”这个角度切入具身智能？

李鸿升：

我们观察到，现在很多数据集和 benchmark，还是集中在桌面整理、桌面物品摆放这类问题上。当然，这些问题目前也还不能说已经被完美解决，大家很大一部分精力仍然放在这里。

但如果我们要构建一个真正可以在家居环境、工作环境中服务人的机器人，它除了能完成单桌面的任务，还需要具备更大范围的能力。比如全屋导航、全屋搜索、根据指令在家庭环境中完成长程任务。

举一个最简单的例子：在一个家居场景中，人可能在卧室里，让机器人帮忙取一个水果。机器人为了完成“取水果”这个动作，第一步就需要理解全屋的大致布局。它要知道自己在卧室，水果可能在哪里。它可能推断苹果在客厅茶几上，也可能在厨房里，或者在冰箱里。它需要在一个全屋仿真环境中进行导航、搜索和任务执行。

只有当我们有这样的全屋虚拟环境后，训练机器人完成这类任务才有可能。

Xbotics具身智能社区：

对于机器人来说，日常物体之间的位置关系、使用方式、物理约束，可能都很难。

一个机器人从“认识杯子”，到真正理解杯子在生活场景中如何被正确使用，中间差在哪里？

李鸿升：

这里可能要分几个层面来看。

首先是建模。一个杯子，并不是说有了三维模型以后，就可以直接用来训练机器人。它还需要被赋予物理属性，比如杯子的重量、三维碰撞体、表面摩擦系数等。只有这些属性具备之后，杯子才能在家居环境中真正被使用和操作。

其次是物体和环境之间的关系。不同物体可能放在不同的平台上。比如杯子可能放在桌面上，也可能放在厨房台面上。不同平台、不同支撑面、不同摆放方式，都会影响机器人如何接近、抓取和移动它。

因此，对单个物体来说，我们需要自动化地构建它的物理属性；对整体环境来说，我们也需要自动生成不同平台上的物品布局，并让这些物品具备合理的物理属性。如果完全靠人工建模，成本会非常高。

只有当这些自动化建模完成后，机器人训练才可能获得我们日常生活中的常识，以及物理世界的常识。

二、AI 的下一步，是“进入世界”

Xbotics具身智能社区：

对您个人来说，从视觉感知走到具身智能，这是一次主动转变，还是过去研究积累自然推动到了这里？

李鸿升：

我觉得两者都有。一方面，这确实是一次转变；另一方面，它也和我们过去的研究积累有关系。

过去几年，我们确实看到很多多模态大模型、VLM 变得越来越实用。但目前这些大模型的应用，很多还是偏软件、偏虚拟空间的应用，比如帮助人回答问题，或者完成一些数字世界中的任务。

从工业界来看，竞争态势非常激烈。不过在这块，研究属性其实在逐渐变少，更多是在已有模型范式中做进一步 scaling up。

而我们过去组里做过各种大模型，也做过很多 CV 和感知模型。我们会觉得，既然这些偏软件的方向研究属性在下降，我们还是希望“脱虚向实”，转到具身应用中，把过去的一些积累真正放过来，做一些有价值、有影响力的工作。

Xbotics具身智能社区：

从“识别世界”到“进入世界”，对 AI 研究范式最大的改变是什么？

李鸿升：

我觉得最大的改变，可能还是训练数据的收集方式。

过去识别类数据的收集量已经很大了。但当 AI 进入世界以后，它不是只看图像，而是有一个实体进入世界，这个实体可以和周围空间交互。因此，过去几年大家都在探索，怎样更好地采集机器人进入世界、与世界交互的训练数据。

比如机器人遥操作方案、大规模素材场建设，本质上都是机器人进入世界后，为了训练而进行的大规模数据采集。

我们去年也提出过一些环境式素材采集方案。现在大家都在关注不同的素材和数据采集方式。我认为，进入世界之后最大的研究范式变化之一，就是如何更高效地采集机器人和世界交互的数据。目前这方面范式还比较多，很多问题也还没有完全解决。

Xbotics具身智能社区：

大模型在自动驾驶、具身智能、3D 世界生成之间已经有很多应用。

在您看来，这些方向背后有没有一个共同问题？是不是都在回答：AI 如何在物理世界里建立稳定、可行动的理解？

李鸿升：

是的。这几个研究层面有很多可以共享的基座模型和方法。

比如现在用得比较多的视频生成模型、空间感知模型、空间生成模型，以及对未来环境的预测模型。自动驾驶和 3D 世界生成，传统上都可以做到周围环境生成，以及环境变化预测。

但它们对于交互的能力相对较弱。无论是对交互的预测，还是对动作驱动交互的能力，都还不够。机器人测试和机器人交互数据，也有它独有的问题。

因此，我们可以利用以前的一些研究基座模型和方法，把它们拓展到机器人空间里，但还需要进一步补上交互、驱动和执行这一层。

Xbotics具身智能社区：

您怎么理解 Physical AI？它和过去大家讲的Embodied AI有什么关键差异？

李鸿升：

我觉得 Physical AI 最主要的，是能够理解周围环境，并且预测周围环境。

这里的理解和预测，不只是看见周围有什么，而是需要对周围空间、物理规律做比较精准的预测和判断。它和已有概念的主要区别，可能就在于这一点：对世界的认知会更加精准。

它不仅要理解空间和物理本身的规律，还要理解一些人类意图。比如一个机器人递出杯子，一个人伸手过去接，这个动作意味着人愿意接这个杯子。机器人需要通过周围环境和人的动作，去判断人的 intention，并据此进行推理。

我觉得 Physical AI 包含几个层面：空间理解、物理规律理解、对未来的预测，以及对人类意图和交互后果的理解。

三、别先卷本体，先把大脑做聪明

对话李鸿升：机器人也需要一个"家"？Kairos-HomeWorld 背后，大晓的造世界野心图4

Xbotics具身智能社区：

大哓机器人提出的 ACE 范式，强调从 machine-centric 转向 human-centric，也就是从“以机器为中心”转向“以人为中心”。

传统依赖机器人本体和遥操作数据的研发路径，会在具身智能规模化时遇到怎样的瓶颈？

李鸿升：

目前主流路线，或者说上一个阶段比较主流的范式，是以遥操作为主。也就是部署遥操作机器、机器人和操作员，构建数采厂，然后采集大规模以机器为中心的数据。

这条路径有几个瓶颈。第一个是数采厂本身建设成本很高。第二个是遥操作动作效率比较低。虽然现在遥操作已经做了很多工程优化，但仍然会有时延。第三个是很多精细化操作，都需要依赖人手，而通过遥操作很难实现。

比如人用手拿起桌上的一支笔再进行写字，这是一个很自然、很简单的动作。但如果通过遥操作让机器人完成，就会比较困难。

所以我们希望转向以人为中心的数据采集。一方面，单体设备成本更低，不管是从单体采集设备看，还是和机器人本体相比，成本都更低。另一方面，也不再需要专门的数采厂。如果有一些比较便携、低成本的设备，就可以非常高效地、大规模地采集以人为中心的数据。

人们在日常生活和工作中自然产生的数据，采集效率更高，环境多样性也更高。我们发现，这样一批数据积累速度会非常快，所以从各方面来看，我们认为这块未来潜力更大。

对话李鸿升：机器人也需要一个"家"？Kairos-HomeWorld 背后，大晓的造世界野心图5

Xbotics具身智能社区：

大晓机器人首发产品 A1 具身超级大脑模组，致力于解决 cross-embodiment，也就是跨本体泛化的问题。

以四足机器人为例，它们的结构、运动方式和任务场景都不同。所谓一个通用的机器人超级大脑，到底哪些能力可以跨本体共享？哪些部分又必须针对具体硬件适配？

李鸿升：

目前我们主要关注两类构型：一类是机器狗，另一类是人形机器人。

在 A1 超级大脑模组中，像导航、空间智能判断等基础能力，在这两类本体之间是可以共享的。还有一些比较泛化的空间智能能力，比如任务分解、长程任务完成等，这些数据基座模型也可以共享。

但如果涉及手部操作，就需要单独构建一些模型。比如对物品的操纵、摆放、抓取等，它们需要和具体本体的硬件、控制能力结合。

所以可以理解为：高层能力可以共享，比如空间理解、导航、任务拆解；但底层执行、手部操纵、具体运动控制，仍然要针对不同本体做适配。

对话李鸿升：机器人也需要一个"家"？Kairos-HomeWorld 背后，大晓的造世界野心图6

Xbotics具身智能社区：

如果把大晓机器人现在的路线连起来看，会看到几个关键词：环境式数据采集、开悟世界模型、AI 超级大脑和开放生态。它们不像是孤立产品，更像是一个闭环。

是否可以这样理解：真实场景的数据进入世界模型，世界模型提升机器人能力，机器人落地后又产生新的数据，这样形成一个数据飞轮？

李鸿升：

我觉得你说得挺对的。我们现在的数据构造，确实是在一个数据飞轮里不断进行。

当我们只有一个机器人本体，或者只有一些采集设备，它必须真正进入生产环境和业务场景，才能快速收集到更新的数据。通过这些数据，我们才能发现已有模型的短板和缺陷，再重新做更精细化的数据收集和标注。

所以，让机器人能力进入业务场景，让数据飞轮转起来，是非常重要的。这样才能让整个模型研发和产品迭代速度变快。

对话李鸿升：机器人也需要一个"家"？Kairos-HomeWorld 背后，大晓的造世界野心图7

四、具身智能不缺热度，缺的是交付

Xbotics具身智能社区：

现在很多公司都反复强调开放生态，比如不同本体厂商、芯片厂商、硬件云服务商、场景伙伴一起合作。具身智能看起来不像移动互联网时代那种单一 App 生态，而更像一个很重的产业系统。

您认为一家企业有没有可能单独完成从模型到本体、再到数据、再到场景的全部闭环？

李鸿升：

我觉得一家企业可能还是很难做到全部闭环。因为从模型本体，到数据，再到下游不同场景，链条非常长。如果再考虑下游场景的差异，比如一个赛道里有很多细分方向，每个细分赛道可能都需要下游公司做单独开发。

不同公司肯定有各自传统优势。像大晓机器人，传统上是在 AI 大模型和“大脑”层面起家，所以我们在大脑这块会有优势。当然，上下游我们也都会有布局，但我们最独特的优势还是在 AI 大脑层。

未来还是需要和不同行业公司、生态环境里的公司互相配合、互相帮助。比如在具身这个赛道里，供应链厂家经常很难替换。企业开始做战略合作后，往往会长期一起做研发、一起打磨产品。

以我们现在的大脑模组为例，已经适配了一些机器狗和人形机器人。但每家 API 都有差异，不可能一下子适配十几二十家本体厂商。所以生态协同的层面，更多是一些企业抱团发展、长期合作。

对话李鸿升：机器人也需要一个"家"？Kairos-HomeWorld 背后，大晓的造世界野心图8

Xbotics具身智能社区：

过去一年我们看到很多机器人 Demo 非常精彩，但从 Demo 到稳定商业化落地，中间其实还有很长一段距离。您觉得这个距离主要难在哪里？是长尾场景、安全可靠性、成本，还是模型在真实环境里的泛化能力？

李鸿升：

这些点都有。长尾场景、成本、安全可靠性、真实环境泛化能力，都是从 Demo 到商业化落地时会遇到的问题。

目前我们也接触到一些商业客户。很多客户判断的方式非常现实，就是看这件事能不能盈利。比如如果单机成本能够做到 10 万以下，他们就愿意采购，因为分析下来确实能够节省人力。

成本现在还是比较重要的。当然，未来量上来以后，成本肯定可以继续压下去。比如汽车行业，比亚迪一台车只要产量足够大，整个 BOM 成本就可以压得非常低。机器人也类似，只要应用场景变多、产量变大，很多成本问题是可以被解决的。

但是不同场景对泛化能力的要求差距很大。比如物流场景，可能只要求机器人在一些简单物流场景中泛化；但如果我们希望做家庭服务机器人，它的泛化 scope 就大很多，整个任务边界更广。

所以我个人觉得，短期内一些细分场景会先出现落地成果。当单一本体成本压下去以后，如果它的任务边界相对窄，就能比较快落地。未来一两年，我们可能会看到大哓在一些大规模应用场景中取得成果。但这和大家想象中的“机器人在家里什么都能干”还不一样，任务边界可能会先收缩一些。

Xbotics具身智能社区：

今天具身智能行业非常火热，资本、创业公司和学术界都在快速进入。但越热的时候，可能越容易出现一些误判。

如果三年后回看今天，您觉得这个行业最大的误判可能会是什么？

李鸿升：

这个其实很难判断。很多创业公司赛道都类似，因为现在这些技术路线都还没有完全收敛。

举例来说，一开始大家关注具身大脑，后来押注 VLA，最近又觉得动作模型的机会可能比 VLA 更大。所以现在很难判断哪些会是重大的误判。

很多公司现在其实都是多头押宝的状态。包括我们自己做研究也是这样，我们会说“热问题要热做，冷问题也要烧热”。我们会对技术路线做判断，会觉得有些路线现在可能不是主流，但仍然会投入一些人力和算力。

因为这个行业里，两三年内技术路线变化趋势非常快。我觉得目前做预判还是比较困难的。

Xbotics具身智能社区：

回到 HomeWorld 这项工作本身，如果要向一个非技术背景的读者解释它为什么重要，您会怎么讲？

李鸿升：

对我们来说，HomeWorld 是为中国家庭构建了一个有中国特色的全屋布局，并且全屋物体可以交互的机器人虚拟训练场。

只有当我们有这样的虚拟机器人训练场后，未来家居机器人进入中国家庭、为每一个中国家庭做服务，才有可能。

Xbotics具身智能社区：

大晓机器人有一句很有画面感的表达：让机器人拥有“聪明的大脑”和“有趣的灵魂”。

最后想请您谈谈，在您看来，一个真正聪明的机器人，首先应该学会什么？

李鸿升：

我觉得对聪明的机器人来说，它所要求的能力边界还是比较广的。其中很重要的一点，是强泛化性。

当然，泛化性也可以限定在具体场景里。比如零售打包场景，它的泛化性可能只局限在打包台和货架上。但如果我们追求更宽广的应用场景，比如家庭机器人，类似请一个保姆，那么对泛化能力的要求就会高很多。

家庭机器人不仅需要对机器人本体有更强泛化，也需要对环境有更强泛化，还要对任务边界有更强泛化。动作边界也会更高。

所以我觉得，一个更聪明的大脑，最重要的还是更强的泛化性。不管是对机器人本体、环境，还是任务边界本身，都是这样。

总结

这场对话让我们看到，Kairos-HomeWorld 的意义并不止于“生成一个房子”，而是在为机器人搭建一个真正可理解、可交互、可训练的物理世界。

对大晓机器人而言，“造世界”不是炫技式的三维生成，而是让机器人从识别空间走向进入空间，从理解物体走向理解关系、动作与后果。

无论是 ACE 以人为中心的数据范式、A1 具身超级大脑模组，还是围绕真实场景持续转动的数据飞轮，其背后都指向同一个目标：让机器人在复杂、多变、充满长尾的现实世界中获得更强的泛化能力。

具身智能的落地不会一蹴而就，但正是在这样对世界、数据、本体与生态的长期构建中，机器人距离真正拥有“聪明的大脑”和“有趣的灵魂”，才会越来越近。

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀

对话李鸿升：机器人也需要一个"家"？Kairos-HomeWorld 背后，大晓的造世界野心图9