BODY人体交互数据集发布

智姬 2025-10-11 16:59
BODY人体交互数据集发布图1

BODY人体交互数据集发布

BODY人体交互数据集发布图2


BODY数据集简介


BODY (Body Operation Dynamic Yardstick Dataset)数据集项目是一个由姬械机科技(Maschine Robot)设计并发起的,基于全身穿戴的运动与动作传感设备进行的人体意图-动作综合交互基准数据集项目。旨在依托脑机接口(BCI, Brain Computer Interface)及多模态体感传感接口(MCI, Multi Mode Interface)技术构建 面向意图驱动型人机交互(HCI)的大规模、多场景、多任务数据。


BODY人体交互数据集发布图3

BODY 数据集将采用便携可穿戴的脑接接口( BCI )与可穿戴身体传感接口(MCI)硬件设备套件(极大的减少采集环境的限制,可以实现居家采集),同步采集不同任务形态下的大脑意图信号以及配套的全身运动姿态与手部操作行为、触觉/力/接触信息、肌肉生理电信号,并会配合搭载于头部智能穿戴设备上的眼动轨迹、多视角 RGB/RGB-D 视频传感器数据,从而用以实现全面的的场景理解与交互操作环境中的物理信息。同时所有数据流通过协同采集软件在中央控制端实现毫秒级时间同步,采用以自动化标注(姿态、动作阶段、接触事件、意图线索,操作序列)为主并以人工校验与关联为辅的标注策略。 目标是提供跨动作、子阶段、意图与执行、物体身份等级等多个维度的防泄漏细粒度标签。
该数据集任务面人形机器人模仿学习与神经康复等现实应用场景,有望为人形机器人训练提供新的一类可规模化进行的基于人类运动与操作示教路线的的技术方案,同时也能为神经与运动康复场景提供一套更全面的数据采集与评估系统。


1. 背景与动机


新一代人机交互系统以及具身智能机器人应用都需要智能系统具备用户意图推断能力,并能与物理环境协同作业,然而多维度,大规模、多模态同步数据集的缺失严重制约了相关技术的发展。因此 BODY 数据集作为为支撑该领域进步的关键基础设施,将为智能时代人机交互与具身应用提供新的技术路线与数据支持。
当前,人机交互领域正从传统的桌面、智能手机与 VR/AR 交互,迈向意图驱动的具身人机交互。其中两个重点方向尤其需要高质量数据的支持:
1.人形机器人的人类演示训练:需整合目前单一公共资源中尚未覆盖的大规模时序对齐数据,包括人脑-运动控制、人体-物体交互接触力学、全身运动学以及操作技巧以及配套的场景级三维感知信息。

BODY人体交互数据集发布图4

2.神经康复与辅助控制:闭环 BCI 系统将运动想象与视觉/触觉或电刺激反馈相结合,但其发展依赖于包含高质量事件标记、多模态生理信(EEG/EMG/EOG)及行为结果的多会话数据集,以提升解码鲁棒性、个性化能力与疗效评估有效性。


BODY人体交互数据集发布图5

为填补上述空白,姬械机在2023年12月启动BODY 身体交互数据采集系统设计与开发,并于2025年10月推出 BODY 数据集(继早期发布的 MIND脑机交互数据集后的身体交互数据集)项目,目标定于于构建采集人在真实世界交互任务执行过程中的多模态数据——包括大脑意图信号、运动姿态、手部与物体交互力信号、EMG 信号、眼动轨迹、多视角视觉数据及场景上下文元数据的规模化多维度身体交互数据集。
姬械机科技在脑机接口,人体动作交互穿戴设备等数据采集与平台系统方面有着深厚的技术与产品研发积累。核心研发的俱身智能采集系统能够基于便携可穿戴的智能人体意图与运动信号传感采集设备系统,低成本规模化的实现人体意图-运动时序数据采集,同时能够并行进行各类运动与操作任务对应生理数据的多源同步与语义标注的标准化,有望解决该领域长期存在的数据资源匮乏问题。


2. 项目目标


1.构建面向多任务的人体交互基础数据集,覆盖多样化实用交互场景与用户意图。
2.建立标准化采集与标注协议与方案,打通身体数据-人形机器人转化应用,支持可复现研究及公平模型对比。
3.赋能可泛化模型开发,通过多模态信号融合与细粒度语义标注,进一步实现高效可泛化具身模型训练开发。
4.搭建从实验室到真实应用的迁移桥梁,服务人形机器人训练技术及医疗康复、日常辅助交互等重点真实需求。
5.推动开放协作生态,通过共享基准数据集、基线模型与社区评估机制,推出规模化身体交互数据集共建机制。
姬械机科技在智能可穿戴设备、脑机接口及具身智能数据平台领域积累多年研发与应用经验,自 2021 年起与多家高校及医疗机构合作推进 脑机接口与具身数据研究项目,为 BODY 数据集的构建提供了有效的实践基础。


3. 设计原则与采集范围


数据规模的重要性(机器人模仿学习场景):
策略学习依赖数据的广度与深度:
·涵盖多种物体、环境配置与接触交互模式;
·包含长视野、多步骤的任务序列;
·覆盖成功与失败案例的连续谱系。
大规模演示数据有助于模型实现分布外泛化、可靠归因动作子步骤,并学习小规模数据集难以涵盖的接触式操作与双手协调技能。
数据规模的重要性(神经康复场景):
康复过程中患者的症状表现、治疗反应及恢复轨迹存在显著的个体间与会话间差异,因此需要大规模、多样化、具有时间延续性的数据集以:
·构建跨人口统计特征与传感设备的鲁棒意图解码器;
·实现模型对患者生理状态动态变化的个性化适配;
·捕捉罕见但具有临床意义的事件(如疲劳、痉挛发作、代偿行为);
·关联传感器数据与临床评估结果,支撑循证治疗优化。
数据采集维度(人体 × 交互 × 环境):
·人体内部状态:EXG 信号(EEG/EMG/EOG),用于识别意图与肌肉激活模式;必要时同步采集生命体征。
·人体外部行为:全身运动姿态与关节运动学、手部姿态与抓握状态、视线与注意力指向。
·交互信号:触觉/力/接触事件、物体状态变化(位姿、关节运动、内容物变更)。
·环境上下文:多视角 RGB/RGB-D 视频、场景布局、物体语义信息、任务脚本、时间戳与同步标记。
目标任务类型:
·基础运动基元:伸手、姿势转换、步态片段、双侧协调动作。
·操作技能:抓取-举起-放置、工具使用、关节物体操作(如开门/抽屉)、可变形物体处理。
·日常生活活动序列:在模拟家庭/办公场景中结合移动与操作的多步骤任务。
·康复专用模块:运动想象任务、关节活动度训练、标准化评估任务(如九孔插板试验、方块和方块测试)及治疗师指导方案。
标注内容:
·带起止时间戳的动作与子阶段事件标记;试验/会话标识。
·接触与交互状态(触摸、滑动、力阈值)、物体身份、任务成功/失败、重置事件。
·意图与执行动作对应关系、辅助等级、结果度量;如适用,关联临床评估量表。
·数据质量指标及防泄漏划分策略(按参与者、场景、物体/设备),以支持泛化性评估。
核心设计原则:
标准化采集协议与数据模式、多模态高精度同步、隐私优先的数据治理、可复现的基准测试。BODY 强调覆盖度(人物/内容/场景)、对齐性(时间/空间/语义)与可比性(划分/指标)。


4.目标应用


(A) 神经康复:辅助运动中的意图解码、运动功能恢复评估、自适应神经反馈训练。
(B) 人形机器人训练:类人运动基元学习、灵巧操作策略获取、共享自主控制。
主要数据类别:
1.全身运动姿态动作捕捉数据
2.上肢精细操作动作捕捉数据
3.手部精细操作动作捕捉数据
4.可穿戴运动与生理数据(IMU/生理信号)
5.物体交互场景下的可穿戴数据(含触觉/力信息)
该数据集支持不同类型设备进行采集,并且允许多源设备并行采集如大脑意图数据等,同时该数据集项目会根据不同场景引入VR及AR和智能眼镜作为人机交数据互采集过程中的辅助。


BODY人体交互数据集发布图6

采集系统基础架构示意


5.采集框架


5.1 采集环境(多场景覆盖)
·实验室受控环境:配备校准装置,执行标准化任务,实现高保真数据采集。
·临床/康复环境:在治疗师指导下进行,遵循安全优先原则。
·日常模拟环境:经许可在家庭、办公室、厨房等非约束性场景中采集。

5.2 设备与系统(专有技术栈)
·全自研硬件:早期数据采集严格使用姬械机自主研发穿戴系统设备套件,不集成第三方定制或商用硬件,确保跨站点数据质量一致(后期根据发展逐步兼容支持更多成熟外部相关硬件设备进行数据采集)。
·脑机与生理传感系列:自研 EEG/EMG/EOG 设备,集成 AR/VR 接口用于任务提示与反馈;采集软件实时可视化标准质量指标(如阻抗、信噪比)。
·可穿戴运动学套件:通过基于 IMU 和/或光学标记的可穿戴系统、仪器化手套/接触传感设备,实现全身与手部运动捕捉,专为移动、操作及康复活动优化。
·环境感知与上下文:同步采集多视角 RGB/RGB-D 视频、眼动轨迹及任务相关音频(可选);场景与物体元数据通过会话清单统一管理。
·集中采集与同步:所有传感数据通过协同采集软件流式传输至中央控制计算机,基于主系统时钟实现毫秒级跨模态对齐。系统记录各数据流元数据,实施漂移监测与心跳标记,并进行会话完整性校验。最终会话数据包包含原始数据、采集清单、校准日志及完整性校验信息。

5.3 任务协议与采集流程
·运动基元任务:带明确起止标记的伸手、姿势转换、步态、双侧协调等动作。
·操作技能任务:抓取-举起-放置、工具使用、关节物体操作、可变形物体处理;记录物体ID、接触状态与任务成败。
·日常活动序列任务:多步骤场景任务,结合移动与操作,附带场景与物体参考信息。
·康复专用任务:运动想象、关节活动度训练、标准化评估(如 9-HPT、Box-and-Block)及治疗师指导方案;记录辅助水平与任务结果。
·校准与基线采集:包括静息态、运动想象校准、眼动/相机标定、可穿戴设备对齐及任务前同步验证标记。


6.采集任务设定说明


BODY数据集主要面向打通人机交互技术真实应用场景面临的各类任务应用,主要包括以身体运动采集任务为主的5大类数据集:
a.全身运动姿态动作捕捉数据 ; 
b.上肢精细操作动作捕捉数据; 
c.手部精细操作动作捕捉数据; 
d. 可穿戴运动与生理数据(IMU/生理信号); 
e. 物体交互场景下的可穿戴数据(含触觉/力信息);
其中各类都对应了不同类型的支持采集任务和推荐采集场景,以便在数据集构建过程中实现对应的质量及泛化使用需求。具体的:
(1)全身运动姿态动作捕捉数据包括:日常行走、蹲起、跳跃、转身、跌倒恢复等高频行为,建立“人到机器人”一键迁移的全身基元动作库,支撑人形机器人、VR 替身、运动康复算法的训练与评测;
(2)上肢精细操作动作捕捉数据包括:“肩-肘-腕-指” 串联的高自由度运动数据,如倒水,插插头,拧螺丝等上肢精细运动,用于远程机械臂示教、上肢康复外骨骼轨迹规划及人机协作安全阈值研究;
(3)手部精细操作动作捕捉数据包括:打字,手语,弹琴,点击等手部精细运动;
(4)可穿戴运动与生理数据(IMU/生理信号)包括利用连续佩戴的运动穿戴设备采集长时间、多模态的人体运动-生理数据如日常+运动+睡眠,用于健康监测、疲劳预测、运动处方等算法开发;
(5)物体交互场景下的可穿戴数据(含触觉/力信息)包括:指尖捏合力度采集,腕部旋转力矩采集,握力采集等,为“人-物”耦合的力学与触觉信号数字化,为服务机器人抓取策略、柔性臂力控算法和 AR 触觉渲染提供真值。


7.BODY数据集项目内容与流程说明


(1)BODY数据集项目采集流程说明
BODY数据集的采集流程主要包括任务申领与资质评估,设备获取与远程校准,范式验证与发布,数据采集与标注分析,数据提交与验收,数据标准化这几个步骤。具体的将基于申领团队的采集环境及人员配置,由姬械机BODY数据集项目组团队推荐并配发对应任务包,同时为采集团队提供姬械机的统一采集设备;之后远程活现场进行采集设备的统一校准,并发布标准采集范式;在完成数据采集后,由发起方与采集方协同推进数据标注与基础筛选,全部达标后由发起方统一进行数据标准化处理,并在达到规定规模后集中存储、分类管理,随后对外提供访问与使用。

运动实验标准流程
1. 环境准备与场景清单确认;完成设备自检。
2.参与者情况简报、知情同意书签署与资格筛查;康复场景额外进行安全须知说明。
3.设备佩戴与信号质量确认;所有设备连接至中央采集端;验证系统同步状态。
4.执行校准与基线采集;记录时钟对齐标记;确认清单元数据(受试者、会话、场景、任务列表)。
5.任务模块执行(按随机/平衡顺序):操作员启动任务模块;通过 AR/VR 呈现任务提示(如适用);系统自动生成事件标记;操作员对边缘案例进行注释;会话中进行完整性检查与增量备份。
6.会话结束:停止采集;自动生成校验与完整性报告;导出会话数据包(原始数据+处理存根+清单+校准日志)至存储系统;进入匿名化处理队列。

标注流水线(自动化优先,人工校验):
预标注阶段:自动模块生成姿态关键点、动作阶段分割、接触事件及 EXG 意图线索等候选标签,并与主时钟时间戳对齐。
人工质检阶段:标注员在统一时间轴审阅工具中校验和修正机器生成标签,重点处理低置信度区域与边缘案例,部分数据实行双人审核与仲裁机制。
本体与版本管理:使用版本化的动作/意图/物体分类体系管理标签,所有变更记录可追溯。发布的标签数据遵循防泄漏划分策略(按参与者/场景/物体)。
发布就绪检查:在数据发布前执行隐私过滤(如人脸/语音处理)、标签完整性及元数据一致性检查,相关报告归档于会话包。

领域特定说明:
机器人学应用:提供物体分类体系、场景元数据及演示质量标签(成功/失败/重置),按物体/场景划分以支持策略泛化评估。
康复应用:遵循安全优先的采集协议,记录治疗师监督与辅助信息,并附注采集过程中的禁忌症与设备耐受性说明。

(2)BODY数据集项目采集方案说明
BODY数据采集范式将由发起方统一设计定义,并在完成样本数据集采集验证后对参与方进行同步发布,确保相同交互任务数据获取范式的一致性。设备校准将由采集方配合发起方按校准方案进行,在完成校准测评后可以予以进行任务发放采集开展,确保设备的可用性和采集数据的通用性。数据集交互任务标注将由发起方与采集方共同进行标签设置及有效数据匹配与选取,通过严格把控数据标注来保障数据精度与标签准确性。数据标准化将由发起方进行设计开发并实施处理,通过数据标准化将实现不同设备数据的一致性和复用性,方便数据的使用与模型训练接入。由不同采集方提供的数据集将统一基于精准数据集校准分析,确保数据质量的稳定性和可用性。 数据入库与发布,在经过数据校准后将统一进行数据清洗与格式标准化,并且统一基于不同任务进行数据入库,入库后达到一定规模后进行模型测评,在测评稳定后开始正式对外提供数据访问通道。


8.BODY数据集项目计划


BODY数据集项目预期将在5年内完成累积2万人次的超过500项不同交互任务的大规模人机交互数据集采集构建。主要项目规划如下:

第一年   基础样本交互数据范式及数据集采集 2025.12.1-2026.09.30
第二年   规模化数据集采集及测评  2026.10.01-2027.09.30
第三年   第一期规模化数据集采集及发布2027.10.01-2028.09.30
第四年   第二期规模化数据集采集及发布2028.10.01-2029.09.30
第五年   第三期规模化数据集采集及发布 2029.09.30-2030.09.30

该数据集建设将于2025年12月正式启动,于2026年9.30日完成主要的数据样本范式建设和样本数据集采集,并对第一年度开源采集参与单位提供采集任务与采集方案发放与支持。于2027 年10.1日启动第一期规模化数据集任务配发与数据采集验收测评及数据标注,并于2028年10.1日正式发布第一期BODY数据集供行业使用。同时后续将持续扩大数据规模,并于2029.10.1日与2030年10.1日陆续发布第二期与第三期BODY数据集。


9.BODY数据集项目参与方式


BODY数据集项目在完成设备校准后,将于第一期分别邀请人形机器人相关科技公司与康复医疗科技公司进行两个方向的数据集联合构建,并在后续陆续邀请更多各个方向研究团队与应用科技公司共同参与进行,欢迎大家关注参与。
合作联系: roylou@maschinerobot.com

联系人:卢老师


10.BODY数据集项目设计参考


Related Datasets and Community Expectations
Survey of representative public datasets for neurorehabilitation and humanoid/robot training, and what practitioners in these fields expect from valuable data. Links are included for reference.

A.Neurorehabilitation – Notable datasets and resources

【1】 HuGaDB (Human Gait Database)
  - Focus: Human gait patterns for health studies (rehab, Parkinson’s), VR/gaming locomotion, humanoid walking models.
  - Notes: Motion/gait sensor data; used for gait analysis and rehab assessment.
  - Link: `https://www.kaggle.com/datasets/romanchereshnev/hugadb-human-gait-database/data`

【2】 SURREAL (Synthetic hUmans foR Real tasks)
  - Focus: Synthetic images with ground-truth pose, depth, segmentation (6.5M frames); used for pose estimation and motion analysis supportive of rehab research.
  - Link: `https://sites.google.com/view/ai4manufacturingrobotics/datasets`

【3】 StrokeRehab dataset (example multimodal rehab activity benchmark)
  - Focus: Video + wearable sensors with labeled short-duration actions for stroke rehab monitoring and sequence models.
  - Link: `https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10530637/`

【4】NeuroRehab Common Data Elements (CDEs)
  - Focus: Standardized data elements for neurorehabilitation studies (assessments, interventions, outcomes).
  - Link: `https://www.commondataelements.ninds.nih.gov/neurorehab`

【5】Integrated Robotic System for Stroke (IRSS) data (illustrative clinical integration)
  - Focus: Evaluating holistic rehabilitation approaches with clinical scales and outcomes.
  - Link: `https://pmc.ncbi.nlm.nih.gov/articles/PMC6849111/`

What the neurorehab community expects from data
- Personalization: Sufficient longitudinal, multi-session coverage to model patient-specific progress and adapt therapy.
- Multimodality: EXG (EEG/EMG/EOG), kinematics/pose, task events, outcomes; synchronized time bases and quality indicators.
- Clinically meaningful labels: Links to validated scales, event markers, assistance levels; clear protocols and CDE alignment.
- Reproducibility: Standard schemas, calibration logs, device metadata, and leak-free evaluation splits.

B.Humanoid/Robot training – Notable datasets

【1】 DROID (Distributed Robot Interaction Dataset)
  - Focus: ~76k robot demonstration trajectories across 86 tasks, 564 scenarios; multimodal (RGB, depth, language, proprioception).
  - Link: `https://acgrobot.com/high-quality-embodied-intelligence-datasets-around-the-world-at-present/`

【2】 RH20T (contact-rich manipulation)
  - Focus: Multimodal sensing (RGB, depth, force/torque, audio, tactile) for learning diverse manipulation skills.
  - Link: `https://cybernachos.github.io/robotics-overview/robotics-datasets`

【3】 Human motion and interaction priors (contextual datasets)
  - AMASS (MoCap aggregation): unified human motion capture for body dynamics.
  - GRAB: human grasping with body-hand-object interactions.
  - DexYCB: hand–object pose for dexterous manipulation.
  - Ego4D / EPIC-KITCHENS: large-scale egocentric activities for object interaction understanding.
  - Links: AMASS, GRAB, DexYCB, Ego4D, EPIC-KITCHENS (project pages)

What the robotics community expects from data
- Coverage and diversity: Many tasks, objects, scenes, and manipulation regimes; domain breadth to improve generalization.
- Multimodality with precise synchronization: Vision (RGB/RGB-D), pose/kinematics, tactile/force/contact, language, and robot states.
- Demonstration quality: Task success labels, phase/segment annotations, resets, and failure cases for robust policy learning.
- Standardized eval: Clear train/val/test splits (by scene/object/robot), reproducible baselines, and leak checks.

C. Implications for BODY
(1)BODY should unify human-centric EXG + pose + tactile/contact + 3D perception with rigorous time sync and event schemas to address gaps across both domains.
(2)For neurorehab: align with CDEs, include therapy-relevant markers and outcomes; support longitudinal analysis.
(3)For humanoids: include contact-rich object interactions, scene metadata, and demonstration quality signals; define strong generalization splits.


联系我们


商务合作

bp@maschinerobot.com


简历投递

hr@maschinerobot.com


关注智姬公众号

获取更多精彩内容


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
美国学者承认:中国稀土体系让全球新能源与芯片产业彻底离不开中国供应链
首款全国产训推一体AI芯片发布,兼容CUDA生态
谷歌TPUv7挑战AI芯片王座(一):商业化攻势撼动产业格局
芯片,被AI “截胡”
Arm 和 RISC-V 在高性能计算市场正打破x86统治地位
AMD:对华芯片销售将向美政府缴纳15%税款;任正非:算力过剩的时代一定会到来!;俄境内数百辆保时捷突然锁死
3.26亿!江苏AIoT芯片公司,要卖了
【半导体设备】盘点国内外存储芯片制造和测试设备布局
欧洲之光!5nm,3200 TFLOPS AI推理芯片即将量产
M系列芯片一号人物准备离开,苹果高管流失正在失控
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号