点击下方卡片,关注【Xbotics具身智能实验室】公众号
更多具身干货,欢迎加入(戳我)
👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide
👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job
你想要的这里都有~~

Xbotics具身智能Infra交流群
让机器人从“能动一次”走向“持续稳定地工作”,缺的不是更炫的模型,而是一套能把数据飞轮真正转起来的基础设施。Xbotics-Embodied-AI-Infra 的定位就在这里。
1.一句话定位:机器人数据闭环基础设施
核心主张:让具身智能从“能跑 Demo”走向“稳定产品”。

Xbotics-Embodied-AI-Infra 不是又一个机器人算法模型,也不是为某一次展会搭的演示集成。它是面向具身智能机器人的数据闭环基础设施,完整覆盖了从数据源头到策略持续进化的全链路:异源数据采集、统一 episode 标准化、模型训练、真机强化学习、人工干预、安全部署、失败回放与持续迭代。
之所以强调“基础设施”,是因为我们要交付的不是一个一次性卖断的功能模块,而是一个能够长期运转、自我强化的系统工程。真实场景下,客户关心的从来不是“机器人能不能在摄像头前动一次”,而是三个扎心的问题:
今天运行失败了,到底哪里出了问题,能不能快速定位并复现? 模型更新后,会不会反而引入新的不稳定,有没有办法安全地灰度上线并随时回滚? 每一次运行、每一次接管、每一次失败,有没有变成下一轮训练的高价值数据,而不是白白丢掉?
Xbotics-Embodied-AI-Infra 就是为回答这三个问题而生的。它把“数据—训练—真机—安全—运营”五个环节打通成一个闭环飞轮,使得机器人在现场每多运行一天,就多积累一天可用的训练资产,最终让模型越来越稳定,人工干预越来越少,真正从实验室的惊艳一瞥变成真实场景中值得信赖的生产力。
项目对外统一使用 Xbotics-Embodied-AI-Infra 作为产品名称。
2. 团队:北京做数据入口,上海做真机闭环
团队不按地理位置划分,而是按闭环分工来组织。两条互补的技术线共同解决一个核心问题:如何让人类经验高效流入机器人训练,又如何让机器人在真实世界中安全迭代。

北京团队:数据入口
专注低成本、高信息量的人类演示数据接入。具体来说,就是搞定两类关键数据源:
UMI 类手持数据:通过手持夹爪装置直接采集人类操作轨迹,记录末端位姿、速度、力觉和视觉等多模态信息。这类数据的优势在于不需要完整的机器人本体就能大量采集,极大地降低了数据获取成本和场地依赖。
ego 第一视角人体数据:利用头戴摄像头或眼镜等设备,从人的第一视角捕捉操作过程,配合人体姿态估计算法,将人的动作映射为机器人的观察-动作序列。这种方式特别适合灵巧操作、复杂装配等难以用传统遥操作完成的场景。
北京团队的核心产出,是一套多源数据清洗、对齐、切片和标注工具链,确保这些五花八门的人类经验,能够被统一成机器人可以学习的“episode”。
上海团队:真机迭代
专注策略在真实硬件上的安全进化。主要包括:
真机在线强化学习:不是只在仿真里跑 RL,而是在真实机器人的实时运行中,采用 actor-learner 异步架构进行在线策略更新。这意味着机器人可以在执行任务的同时,根据新的反馈不断修正自己的行为。
人工干预闭环:将人类接管设计为一个结构化的数据生成事件,而不是一个尴尬的应急操作。每一次接管都会被自动记录上下文、前后片段、接管原因,并立刻进入对应的数据池。
安全护栏:从工作空间几何约束、速度/冲击限制到基于不确定性的异常检测,构建多层防护,确保在线探索不会对设备、人和环境造成伤害。
关键衔接点
两条线不是各自为战。它们在三个层面完成对接:
统一数据引擎:北京输出标准化 episode,上海负责把这些 episode 和真机采集到的数据合并、打标签、构建训练集。
统一训练链路:无论是 BC 预训练、VLA 微调还是在线 RL,都基于同一套实验追踪和模型版本管理体系。
统一评估回放体系:所有模型的表现都通过同一个评估回放平台进行对比,包括成功/失败原因分析、干预统计、任务完成质量打分。
正是这种端到端的互补与耦合,让 Xbotics 能够交付一个完整的闭环,而不是两个孤立的能力模块。
3.痛点:Demo 多,稳定产品少
具身智能已经越过了“能不能动”的阶段,真正卡脖子的是“能不能持续稳定地工作,并且越用越好”。当前行业普遍存在四个深层次的断层,Xbotics 正是围绕它们来设计的。

断层一:数据源割裂,复用成本极高
一个典型的机器人开发流程里,数据可能来自:
UMI 手持采集的离线轨迹 ego 视角的人体操作视频 遥操作设备的精确示教 仿真环境批量生成的随机化数据 真机运行时记录的传感器流 人工接管时产生的干预片段
这些数据的格式、频率、坐标系、时间戳、本体构型完全不同。工程师往往要耗费大量时间手动对齐、转换,才能勉强拼出一个训练集。更糟糕的是,一旦本体型号、相机位置、夹爪类型发生变化,之前的数据几乎要重新处理一遍,几乎毫无复用性。
断层二:训练与真机脱节,离线好不等于现场稳
在离线数据集上训练的策略,常常能在验证集上拿到亮眼的成功率。但一放到真实环境中,问题就暴露了:真实世界存在网络延迟、接触导致的力反馈波动、传感器漂移、动态遮挡、光照变化,以及各种从未在训练数据中出现过的长尾异常。模型在这些情况下往往表现急剧下降,而开发者却很难追溯具体是因为哪个环节的分布偏移导致的。
断层三:人工干预没有资产化,最贵的信号被浪费
在测试或实际运行时,一旦机器人动作不正确或出现危险趋势,操作人员通常会紧急接管。但这种接管大多只是作为一个临时补救动作,事后最多留下一段难以解析的日志。接管发生时的完整场景上下文、操作人员的决策理由、成功矫正的动作序列,这些极具价值的“负样本”和“矫正信号”没有被结构化、标签化和版本化,白白流失了。要知道,一次高质量的干预,其信息密度可能远高于几十条平淡无奇的成功轨迹。
断层四:上线不可追责,迭代变成开盲盒
当模型被更新部署后,如果成功率突然下降,或者出现了新的失败模式,团队常常陷入“到底哪个版本出了问题”的排查噩梦。数据版本、模型版本、环境配置、任务定义、评估标准没有形成谱系,失败回溯靠猜,灰度上线靠运气,回滚更是无从谈起。这种不可追责的现状,使得每一次模型更新都变成一次高风险赌博,严重拖慢了产品化进程。
这四个断层叠加在一起,就造成了行业里“Demo 惊艳,产品难产”的普遍困境。Xbotics-Embodied-AI-Infra 从第一天起,就是为填平这些沟壑而设计的。
4.解决方案:采集、训练、真机 RL、干预、安全部署一体化
我们的核心设计理念是:把每一次成功、失败和接管,都变成下一轮训练的高价值数据。为此,整个系统被构建成六个紧密咬合的环节。

环节一:多源采集接入
系统同时支持 UMI 手持数据、ego 第一视角数据、遥操作数据、仿真数据和真机传感器数据。针对不同数据源,我们开发了标准化的驱动适配层,可以在不修改原始数据格式的情况下,将其“包裹”为一个统一的原始数据对象,附带源头标识和时间基线信息。这一步的关键在于不丢失任何原始信息,为后续的灵活清洗和筛选提供可能。
环节二:标准化 episode 构建
这是数据资产化的核心步骤。我们设计了一套 canonical episode schema,规定了一个标准操作片段必须包含的字段:多模态观测序列、动作序列、奖励信号、终止标记、时间戳、来源本体/人、任务标签、环境标签等。同时,建立一个 canonical timeline,将所有传感器和动作的时间对齐到同一个参考时钟上。经过标准化之后,无论是人类示范、遥操作轨迹还是真机在线交互,都被转换成统一的“episode 语言”,可以在训练池中混合使用,也可以在不同本体间迁移。
环节三:多范式训练支持
训练栈不是绑定某一种算法,而是提供可编排的训练 pipeline,支持:
行为克隆(BC):从示范数据快速初始化策略。 VLA(视觉-语言-动作)模型微调:利用大规模预训练模型,再通过少量场景数据微调,理解语言指令。 Reward Model 训练:从偏好比较或干预数据中学习奖励函数。 离线 RL:在历史 episode 库上训练,无须实时交互。 在线 RL:在真实机器人或高保真仿真中持续交互学习。
所有训练任务都通过实验追踪系统记录超参、数据版本、checkpoint 和评估指标,确保完全可复现。
环节四:边缘执行与人工干预
训练好的策略被部署到边缘计算单元,在机器人上实时运行。执行过程中,系统通过 MCAP 等标准格式完整录制所有传感器和内部状态,并生成事件流。人工干预不再是一个孤立动作,而是被设计成一等公民数据事件:一旦触发干预,系统自动标记当前 episode 的干预点、保存前后时间窗口的数据切片、记录干预操作者的输入命令,并将这些信息连同上下文一起发送到数据资产库。干预原因被分类(安全、任务卡死、效果不佳等),优先级自动分配,确保高价值干预数据优先进入训练管线的下一轮迭代。
环节五:安全部署与灰度上线
策略更新后不是直接全量替换,而是支持灰度上线。可以指定 A/B 策略比例,在新旧策略同时运行的条件下,对比核心 KPI(成功率、平均完成时间、干预率、冲击峰值等)。评估回放平台会自动生成对比报告,如果新策略在关键指标上不如旧策略,系统支持一键回滚到上一个稳定版本。整个过程有完整的模型谱系记录,任何时候都知道某个机器人正在跑的模型是由哪个版本的数据、哪个版本的代码训练出来的。
环节六:失败回放与持续迭代
失败不是结束,而是下一轮迭代的开始。失败 episode 会被自动筛选出来,进入失败分析流水线。分析工具可以逐帧回放传感器数据,叠加策略输出的动作,识别失败模式(感知错误、规划失败、执行偏差等)。这些分析结果又会被写回到 episode 的元数据中,为后续的数据筛选和重训练提供依据。由此,系统形成一个“采集—训练—执行—干预—回放—筛选—再训练—灰度上线”的持续飞轮。
5.产品形态:五层模块覆盖闭环全生命周期
为了让这套基础设施可以被购买、被使用、被集成,我们将其拆解为五个模块化产品层,既可以组合交付为一个完整项目,也可以作为平台订阅服务,按需选用。

模块一:数据平台
负责机器人数据的全生命周期管理。功能包括:
多源数据接入与驱动适配 数据清洗(去噪、去重、异常值检测) 智能切片(按任务、按事件、按时间窗口自动切分 episode) 元数据标签与版本化 数据资产统计(总量、分布、质量得分、来源占比等) 数据池管理(训练池、验证池、失败池、干预池、待标注池)
客户可以看到自己的数据资产全景,知道哪些场景数据充足,哪些场景数据稀缺,数据质量趋势如何,从而制定针对性的采集计划。
模块二:训练平台
提供训练任务的编排、执行和追踪。核心能力:
支持多种训练范式的 pipeline 模板 超参管理和自动调优 实验对比与排行榜 训练资源调度(本地 GPU 集群或云端) checkpoint 管理与模型注册 训练数据版本快照,确保任意模型均可追溯到其训练数据的具体版本
这一层使得算法工程师可以专注于模型设计和调优,而不必花费大量时间在数据版本对齐和训练环境搭建上。
模块三:真机闭环模块
连接软件与物理世界的运行引擎。包括:
任务下发与编排(支持顺序、并行、条件分支任务) 边缘端运行时,负责加载策略、驱动硬件、实时推理 MCAP 录包与事件流记录 人工接管接口(可连接各种操纵器、手柄、键盘等) 自动数据回传,将边缘端产生的 episode 和事件安全地上传到数据平台
这个模块保证机器人能稳定执行任务,同时把所有运行过程中的信息无损地送回云端用于分析。
模块四:安全护栏
独立于任务策略的安全监控层,采用多层防御:
几何层:工作空间边界框、虚拟墙、禁区定义 动力学层:关节速度限制、末端线速度/角速度限制、接触力/扭矩阈值、冲击检测 智能层:基于模型不确定性(entropy、ensemble 分歧等)的异常检测、低置信度触发降速或停止 紧急停机:硬件急停与软件急停双重保障
安全护栏被设计为可配置的策略集,可以针对不同任务、不同环境快速调整,而无需修改核心任务策略。
模块五:评估回放平台
闭环的“眼睛”,让所有迭代决策基于数据而非感觉。功能包括:
多维度 episode 回看(同步播放多路视频、关节曲线、动作输出、奖励曲线) 失败归因分析(自动/半自动标注失败原因) 模型对比(A/B 策略的指标对比与显著性分析) 灰度上线管理与一键回滚 自定义看板,展示关键 SLA 指标趋势
最大差异化在于,Xbotics 的评估回放不只是提供可视化,而是把分析结果结构化地写回数据资产库,从而影响后续的数据采样权重、训练目标和安全阈值,真正形成闭环。
6.技术壁垒:难在闭环工程能力,而非单点模型
别人可以复刻一个在实验室里丝滑运行的 demo,但很难同时复刻这五个系统工程壁垒。

壁垒一:跨 embodiment 数据统一
不同机器人拥有不同的自由度、动作空间、坐标系定义、传感器配置和夹爪类型。我们设计了一套本体抽象层和适配转换模板,使得从 UR5 机械臂采集的拾取轨迹,能够经过归一化和映射,辅助训练一个完全不同的、带有灵巧手的双臂机器人。这套统一不是简单的格式转换,而是包含动作重定向、视点变换、本体归一化和时间重采样在内的一套完整工具链,能够最大程度地保留操作语义,摒弃具体硬件细节。
壁垒二:干预数据资产化
这是整个行业里最容易被忽视、却最有价值的壁垒。Xbotics 将干预从一种“异常处理”提升为一种“高价值数据生成机制”。每一次接管都会被自动切分上下文、原因分类、优先级打分,并根据干预类型进入不同的数据池:安全相关的干预进入安全微调集,任务卡死的干预进入探索激励集,效果不佳的干预进入偏好比较集。这些数据随后会被用于 reward modeling、难例挖掘、安全约束学习等,让模型从人类的每一次“纠错”中快速进化。做到这一步,需要数据引擎、边缘运行时、训练平台的深度耦合,绝非一朝一夕之功。
壁垒三:真机在线 RL 的系统实现
在线 RL 要在真实机器人上跑稳,需要解决几个工程难题:actor 在边缘侧推理,learner 在服务器端训练,两者之间的数据流必须低延迟、可恢复;必须能够从极少量的离线数据(甚至只有几条示范)进行启动,避免随机策略损坏硬件;必须有 reward classifier 来估计稀疏或延迟奖励,并结合人类在环的实时纠偏。我们把异步训练、安全探索、样本效率和人在环监督整合成了一个可配置的 RL 框架,让客户可以在保持安全的前提下,利用真实交互数据持续提升策略。
壁垒四:安全闭环
单纯的急停按钮不是安全闭环。我们的安全护栏是一个在运行时与策略平行运行的独立进程,它同时监控几何边界、动力学约束和模型不确定性三个维度,并且各维度之间存在联动:比如当不确定性升高时,动力学限制会自动收紧,留给策略一个更保守的操作空间。这种层级联动的安全逻辑,允许机器人在“safe exploration”的范围内主动采集那些接近边界但又不会引发危险的高质量数据,这是纯保守策略无法做到的。
壁垒五:精确时间同步与时钟治理
对于多模态、多设备、甚至多机器人的联合训练,时间同步是地基。我们采用双时间戳机制:每条数据都带有一个设备本地时间戳和一个统一规范时间轴上的时间戳。通过 PTP(精密时间协议)优先、Chrony/NTP 回退的方式,建立可靠的时钟映射表,将对齐误差控制在微秒到毫秒级。这保证了来自不同相机、不同关节编码器、不同机器人的数据,都可以按真实时序准确拼合,为多智能体协作训练和精细操作模型提供干净的输入。
这五个壁垒形成了一个相互加强的系统,任何一个单点的模仿都难以撼动整套闭环的护城河。
7.当前进展:基线已打通,进入规模化验证
目前,Xbotics-Embodied-AI-Infra 的基础链路已经在内部全面跑通,正从“功能可用”向“规模化验证”推进。具体进展包括:
数据采集与标准化:已完成 UMI 类手持数据的全流程接入,包括数据解析、坐标系转换、末端位姿和夹爪状态提取;完成 ego 第一视角人体数据的解析管道,可将人体关键点序列映射为任务空间的观察-动作对,并成功对齐到 canonical timeline。当前的标准 episode schema 已稳定迭代三个版本,能够覆盖导航、抓取、放置、组装等典型操作任务。
真机 RL 基线:在至少一类机器人本体上跑通了 actor-learner 异步训练基线,actor 部署在边缘端,基于实时观测输出动作,learner 利用历史 episode 和在线收集的交互数据进行策略更新。同时,人工接管已被完整结构化为事件,包含时间窗口数据切片、接管命令和分类标签,并成功回灌到训练池中触发重训练。
安全护栏设计:完成了三层护栏的设计与硬件在环测试。工作空间边界实时监控、关节速度与末端冲击限制、基于模型熵值的不确定性触发均已验证,安全停机响应延迟在可控范围内。
8.目标客户:先服务最需要数据闭环的机器人公司与场景方
我们不追求一开始就服务所有人,而是精准聚焦于“已经能动,但还不能稳定产品化”的团队,他们恰恰对数据闭环的需求最急迫、付费意愿最强。

第一类:机器人本体厂商
这类客户已经有了自己的硬件和基本的运动控制能力,往往在一些场景中已经跑通了首个试点。他们的痛点是:每进入一个新场景,都需要针对性地采集数据、训练策略、调试部署,整个周期长、复用性差。他们缺少一套标准化的数据闭环工具来提升场景适配效率,也无法用数据证明自己的机器人随着使用时间增加在“变聪明”。Xbotics 能帮助他们搭建属于自己的数据飞轮,缩短部署时间,提升客户复购。
第二类:工业场景方 / 集成商
对这类客户而言,机器人只是实现自动化的手段,他们真正要的是稳定的任务完成率和可量化的投资回报。他们面临的问题是:方案验收时指标良好,但运行一个月后由于环境微小变化(光照、物料位置偏差等)成功率开始下降,而找原厂排查问题周期长、成本高。Xbotics 可以成为他们持续运维和迭代优化的平台,提供失败回溯、策略微调、安全上线等能力,让自动化不再是“一次性交付”。
第三类:具身智能创业团队
很多优秀的算法团队在模型结构和训练方法上有很强的创新,但在真机 RL、安全护栏、干预闭环和工程化评估方面缺少积累,导致 demo 很亮眼,却难以转化为客户可部署的产品。Xbotics 为他们提供了开箱即用的真机迭代底座,让算法团队可以专注于模型创新,快速将研究成果推向真实场景验证,从而加速融资和商业化进程。
这三类客户共同的底层需求,就是需要一个能够把数据沉淀下来、让机器人持续进化的基础设施平台,而这正是 Xbotics 的核心交付。
9.商业模式:项目费切入,平台订阅放大,按机器人与任务形成复利
商业模式遵循“切入—锁定—放大”的三段式路径,确保前期有现金流,中期有粘性,长期有规模。

第一阶段:项目制交付(建立信任与现金流)
以单一机器人本体或单一场景为切口,完成端到端的闭环搭建。交付范围通常包括:定制化数据采集规范与工具适配、训练栈部署与初始模型训练、真机闭环模块与安全护栏的现场集成、评估回放平台的部署与培训,以及一段时间的陪跑优化。项目制收费,在打造标杆案例的同时,获得充足的客户共创反馈,迭代产品。
第二阶段:平台订阅(锁定长期价值)
当客户内部多个项目或多种任务都开始依赖这套闭环时,项目制的单次交付模式就无法满足了。此时转化为年度/月度平台订阅,订阅内容包括:数据管理平台、训练治理和实验追踪、评估回放平台、运维观测大屏、安全策略持续更新,以及相应的技术支持。随着客户的数据资产、模型版本、评估记录都沉淀在 Xbotics 平台上,迁移成本极高,粘性自然建立。
第三阶段:按量计费(复利增长)
当接入的机器人数量和任务种类达到一定规模,进一步推出按量计费模式。计费维度可以包括:托管的 episode 数量或数据存储量、每月训练任务数量或 GPU 时长、评估回放分析次数、接入的活跃机器人数量、任务种类数等。这样,客户的业务增长会直接带动 Xbotics 的收入增长,形成典型的“land and expand”复利模型。
这种三阶段模式,既不会让早期过于追求标准化而丢掉标杆客户,也不会在中后期困于定制化的交付泥潭,能够在规模化和个性化之间找到平衡。
10.后续计划:把已跑通的闭环扩展为行业级基础设施
本轮后续计划的核心目标非常明确:不是泛泛地“扩大团队”或“做市场”,而是把已验证通过的闭环基线,打造成一个可并发、可量化、可恢复、可复制交付的行业级基础设施。将严格用于以下四个方向。

方向一:工程化团队扩充
目前闭环虽已跑通,但要做到商用级的稳定性、易用性和交付效率,还需要大量工程化工作。重点工作包括:
数据工程:负责多本体数据适配器开发、数据质量自动监控。 机器人软件与控制:负责边缘运行时可靠性提升、更多本体驱动支持、实时性能优化。 MLOps:负责训练 pipeline 自动化、模型版本管理、A/B 上线系统。 前端与可视化:构建易用的数据看板、回放分析界面和运维大屏。
方向二:跨本体扩展
当前的基线主要在少数几类机械臂上验证。接下来要快速接入更丰富的机器人生态:
不同构型的工业机械臂(协作、大负载) 移动操作机器人(AMR + 手臂) 人形机器人(双足或轮式人形,上下半身协同) 复合机器人(多臂、多夹具)
每接入一类新本体,就会沉淀一套适配模板和参考配置,逐步形成本体适配库,让未来新本体的接入从天级降到小时级。
方向三:建立灯塔客户
选择 3-5 个有清晰任务定义、可量化评估标准、能持续产生数据的场景,深度合作,打造业界看得见、算得清的标杆案例。这些案例需覆盖不同的行业(如仓储物流、3C 制造、生物医药实验室、商业服务)和不同的机器人类型,形成可复制的行业模板,用铁的事实来证明数据闭环对机器人商业化的核心推动作用。
方向四:沉淀长期数据资产
在服务客户的同时,系统性地建设行业级的公共资产库(经客户授权脱敏):
标准任务库:定义一系列可跨本体复用的原子任务及其评估协议。 失败样本库:按失败模式分类的标注数据,对行业共享安全与鲁棒性研究。 干预样本库:高质量的人工矫正数据,可用于 reward shaping 和偏好学习。 质量评价体系:一套衡量数据质量、任务难度、策略稳定性的标准工具和基准。
这些数据资产会随着平台使用者的增加而不断增值,最终形成 Xbotics 最深的护城河——不只是软件功能,而是整个行业在真机场景下持续积累的、可训练可评估的数据基础。
附:关于演示视频与交流合作
受限于项目当前的保密要求,我们在公开材料中暂时无法直接展示真实的机器人运行视频与内部测试画面,在此深表歉意。但我们非常欢迎对技术细节感兴趣、或在业务层面有合作意向的同行进行深度交流。
如果您想进行技术探讨或了解更详细的技术实现,可以加入我们的技术交流群;
如果您想探讨商业合作、项目试点或融资事宜,欢迎直接添加项目负责人的微信进行一对一沟通。
-END-
Ask Me Anything|提问箱
❝对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。
怎么问:在评论区留言,或私信公众号
我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。
提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。
一起把问题变成知识,推动社区进步 🚀
