具身智能的关键议题讨论

“Data is the new oil.” ——Clive Humby

“数据是新的石油。” ——克莱夫·亨比

数据采集与仿真策略

数据是提升人工智能的“燃料”，而传感器则是采集数据的关键来源。一方面与多家传感器供应商合作，重点研发视觉、触觉等高密度传感器，以获取高质量、多模态的数据输入；另一方面构建跨平台的数据采集API，实现任务语义的一致映射，提供标准化且可用于模型训练的输入数据格式。这种“数据工厂”思路旨在提高真实数据的获取效率和一致性。

在仿真与真实数据的取舍上，仿真环境是高效迭代模型的工具，但最终的大模型训练必须依赖真实世界数据。智元机器人购买和利用了多个仿真平台的数据资产，用于早期的模型调试和工程迭代，因为仿真可以快速测试算法思路、模拟各种极端场景。然而，人为设计的仿真流水线在扩展性上存在瓶颈，如果过度依赖模拟数据，模型的泛化能力将受到限制。加州大学伯克利分校教授Sergey Levine最近提出的“Sporks of AGI”观点：各种替代数据（如模拟环境、人类视频演示、合成数据等）终究无法完全替代真实数据，其固有偏差会束缚模型的性能上限。因此，智元在多模态大模型（包括 VLA 世界模型）的训练阶段 100%使用真机真实数据，不掺杂仿真或合成数据。仿真数据更多用于前期测试和策略验证，一旦进入大模型训练和产品部署，就切换到真实场景数据，以确保模型对现实物理的真正适应。

值得注意的是，真实数据的挑战不只是成本，更难的是缺乏标准化的大规模数据生产机制。目前智元正尝试建立自动化、规模化的数据收集体系，例如通过远程遥控来操作机器人、自动部署大量机器人自主采集数据等，形成闭环的数据流水线。这类似于自动驾驶领域的数据引擎思路：通过不断收集真实交互数据来驱动模型改进。总之，在数据策略上智元选择“真实优先”的保守道路，以牺牲一定开发速度换取更坚实的泛化性能基础。

世界模型与大模型训练

世界模型在具身智能中扮演着重要角色，其核心思想是让机器人具备对环境的内部表征和预测能力。智元机器人的世界模型基于统一的平台开发，具备“三位一体”的功能：既能用于生成视频（预测环境变化），也能评测模型行为，还可用于训练决策策略。通俗来说，这个平台既是仿真的环境生成器，又是模型性能的评价者，还是策略学习的工具。近日智元开源发布的世界模型平台“Genie Envisioner (GE)”就是这方面的成果，集成了预测、控制和评估三大核心能力，提供从“看见”到“行动”的端到端解决方案。有了这样的世界模型，机器人在应对复杂任务时就如同有一个“沙盒”可以演练——例如在堆叠不规则物体等复杂操作上，世界模型可以生成未来场景、评估不同动作方案的结果，从而辅助策略优化。

虽然仿真在迭代中有帮助，但如前述，智元在大模型训练时完全依赖真实数据，以确保世界模型和决策策略对物理世界的有效性。真实机器人数据集的规模因此成为关键瓶颈。智元为此构建了大规模真机数据集 AgiBot World（已在2024年底开源），包含超过100万条机器人操作轨迹、覆盖217个任务、横跨五大场景，被誉为具身智能领域的“ImageNet时刻”。基于这一数据基础，智元训练了通用具身基座大模型 Genie Operator-1 (GO-1)，并提出了创新的 ViLLA架构 (Vision-Language-Latent-Action)。ViLLA在传统视觉-语言-动作模型（VLA）的基础上，插入了“潜在动作Tokens”的预测环节，弥合了高层感知与低层执行之间的鸿沟。具体而言，ViLLA由一个多模态大模型（视觉语言模型）加上两个混合专家模块组成：Latent Planner（隐式规划器）基于大量跨机器人和人类演示视频学习动作规划，Action Expert（动作专家）基于上百万真实机器人示教数据学习精细动作控制。这种分层解耦的方法体现了“大模型+专家微调”的思想，在真实世界的长期复杂任务中表现出比直接端到端VLA更高的成功率。

简言之，智元的大模型训练范式是多源数据融合：利用互联网海量图文和纯文本数据预训练感知和语言理解能力，借助人类和机器人操作视频获取任务知识，使用仿真数据串联任务流程，最后通过真机示教数据精调动作执行。但最终决定模型成败的是那百万级真实交互数据，它们确保模型对物理相互作用的理解不是“空中楼阁”。罗剑岚也坦承，获取如此规模的真机数据并非易事，这需要像自动驾驶那样在真实场景中部署设备去累积经验。这也是智元投入资源打造“数据工厂”和大量具备原生数采能力的新一代机器人（如即将发布的精灵G2）的原因——在真实世界中打造数据飞轮。

技术路线与中美对比

过去一年里，具身智能机器人的技术路线逐渐从概念验证走向全栈集成。去年很多厂商还处于“秀Demo”的阶段，通过手工拼接实现一些炫技功能；而今年开始大家追求产业闭环，即从数据收集、模型训练到系统部署与迭代形成闭环。智元在技术路线选择上采取了大脑+小脑+系统的全盘布局：在“大脑”层面提升任务规划、推理决策等认知智能；在“小脑”层面优化运动控制、多模态感知等执行能力；同时在系统工程层面攻克软硬件协同、实时计算架构等难题。这种全面布局反映出一个共识——具身智能是算法、硬件、数据、场景深度耦合的系统性工程。仅有单点的算法突破（例如只关注大模型推理）不足以解决真实机器人落地的挑战，必须多管齐下联合迭代。

工程化部署与落地场景

将具身智能从实验室带到现实场景，往往要经历繁复的工程化流程。具体场景部署可以归纳为四个阶段：

1. 任务建模：分析目标任务，将其分解为机器人可理解和执行的子任务及流程，明确在特定场景下机器人需要完成的动作序列和感知要求。这一步建立任务的语义和物理模型，为后续方案设计打基础。

2. 场景迁移：将已有的算法或模型迁移到目标应用场景中。由于不同环境在空间布局、物体性质、约束条件上各有差异，这一步需要对模型进行适配调整。例如，将机器人在实验室学会的技能迁移到工厂车间，需要考虑光照、噪声、设备干扰等变化，并对模型输入输出做相应转换。

3. 场景适配：针对具体场景进行调优，包括参数标定、策略微调和反复测试。机器人可能需要收集现场的数据来调整视觉识别的阈值、校正抓取力度或者更新导航路径等。这一阶段通常要与现场工程条件磨合，确保机器人决策在真实环境中有效。例如，机器人在一个新家庭户型中可能要适配不同的家具摆放和地面材质，以保证导航和操作稳定。

4. 安全验证：在部署前进行严格的安全测试和评估。在仿真环境中反复验证极端情况（例如突然的人为干预、网络中断、硬件故障），并在真实现场进行小范围测试，引入多层级的安全兜底机制。只有当机器人在预定场景下达到了可靠、安全的表现，才进入正式发布和投入使用。这一步需要各方面协同，包括软硬件冗余设计、紧急停止机制、以及操作人员培训等，确保一旦出现异常情况不会造成伤害或财产损失。

人机协同的安全友好，上述步骤必不可少。当前业界还没有固定的行业标准流程，每家公司都在摸索。但共识是：宁可慢一点、投入大一点，也要把安全关口前置。智元通过仿真验证+现场兜底的双重保障，尽量将风险消除在部署之前。

安全与遥操作

当下不少机器人的运动还需要人为遥控或对话引导，与真正的自主决策相比有本质区别。遥操作就像人开车，人工直接掌控每一步；而自主决策如同无人驾驶，系统必须自己“看、想、做”。实现机器人自主的难点在于：让机器人理解世界、生成行动策略并执行任务，真正摆脱对人工操作的依赖。

关于大家关心的安全隐患问题，所谓机器人“失控”并非源自它有了自主意识想作乱，而往往只是软件漏洞或设计不完善导致。目前来看，机器人还远未达到科幻电影中那种自我意识的程度，大部分意外情况（如机械臂乱撞、机器人摔倒）都是因为传感器读数错误、算法bug或硬件故障。一旦改进软件逻辑和冗余机制，这些问题是可以避免的。他举例说，智元的机器人在上线前都会经过严格测试，并在极端情况下设置了安全兜底措施。例如，出现异常动作时自动停机、限制关节力量、防跌倒保护等。在实际部署中，他们还会模拟各种人为干扰和环境突发状况，提前验证机器人能否稳健应对。如果不行，就继续优化算法，或者增加物理隔离和急停按钮等外部保障。总之，在智元的理念里，安全是工程设计出来的，通过软硬件结合以及现场管理，来确保万无一失。

遥操作 vs 自主的另一个现实考量是数据。罗剑岚补充道，在真实数据匮乏的阶段，只能先通过不同垂直场景的遥操作来不断积累数据、经验，逐步提升算法的通用性。他直言“不可能一上来就通用，什么都不知道”，需要从一个个具体场景做起，把模型和机器人“喂饱”了，才能谈通用智能。这其实也是业界的共同路线：例如很多机器人公司早期通过远程操控的方式收集人类操作示范，然后用于训练模仿学习模型，让机器人先学会基本技能；待成功率提升到一定程度，再尝试放手让机器人自主完成部分子任务，并观察纠偏。通过这种循序渐进的人机交互训练，逐渐减少人工介入，直到机器人可以全程自主。

针对完全自主后的安全失控隐忧，罗剑岚的观点是：现阶段机器人还不存在主动伤害人的“动机”，出现危险多数是任务理解错误或感知失准导致。那么防范的关键不在限制机器人的自主权，而在于提高机器人决策的正确率和完善保护机制。例如，他们设置了多层次的“安全网”：机器人有一套基础规则，遇到识别不确定或环境超出训练分布时，会减速或请求人工确认；同时环境中加装传感器监测，一旦机器人动作异常就物理断电等。这种软硬件双保险确保即便机器人进入未知情景，最坏结果也是优雅地失败（停下或提醒），而不会野蛮地乱来。

综合来看，罗剑岚对于遥操作和自主的态度是明确的：自主决策是终极目标，但要稳步过渡。眼下先别急着追求所谓通用机器人觉醒，而是脚踏实地在各垂直领域把机器人做“傻瓜式可靠”——即使不算聪明，也绝不犯严重错误。有了这样的安全与性能基础，再逐步扩展机器人的自主边界，终有一天我们能相信地把机器人独自放进家门，让它插上电池自己满屋跑而无需担心。

VLA 路线评价

VLA 并非具身智能的最终解法，原因在于目前这类大模型的可靠性和精度远未达标。据报道，即使业界最先进的机器人大模型在复杂任务上的成功率也常停留在50–60%左右。ChatGPT等语言模型50%正确率尚可接受，是因为人类用户可以辅助判断纠错；但机器人若只有50%的动作成功率，放到物理世界几乎是灾难——每执行两次就可能失败一次，这在家庭或工厂环境都是难以容忍的。机器人执行要求远高于ChatGPT那种“能用就行”水平，物理世界没有容错率。

未来的路线必须是“大模型 + 优化”的结合，而非单纯依赖模态数据堆砌和参数规模。这里的优化指的是各种提升性能的手段，例如引入强化学习等反馈机制来不断提高成功率，或者融入传统控制算法确保关键动作的准确性，亦或针对特定任务做精细调优和安全验证。换言之，大模型可以提供通用性和跨任务迁移的能力，但最后一公里的性能提升需要结合领域知识和优化训练。这也呼应了业内一些专家的看法：要把机器人成功率从80%推向99%，难度呈指数级增加，可能需要一整套全新的技术突破，光靠继续扩大数据和模型未必奏效。

综上，VLA路线的评价可以总结为：方向是正确的，追求通用多模态的大模型来控制机器人是具身智能的未来趋势之一；但目前形态的VLA模型还不成熟，主要体现在成功率和实时性能两大短板。业界已形成共识——不能简单照搬大语言模型的发展逻辑。物理世界的复杂性和严苛要求决定了机器人领域需要自己的技术范式。这可能包括更复杂的模型结构、更高效的学习算法以及与控制理论的结合。在可以预见的未来，“大模型 + X”将成为主流：大模型提供类似常识和多技能底座，外加X（优化算法、规划模块、先验知识库等）来确保接近完美的执行表现。当这个组合真正实现了接近人类99%的可靠又快速的动作成功率时，具身智能才算迎来属于自己的“AlphaGo时刻”或“DeepSeek时刻”。