点击下方卡片,关注“具身智能之心”公众号
作者丨Rickmer Krohn等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。

核心目标与研究背景
当前,机器人操作领域的大规模数据集多聚焦于固定基座机械臂,这类数据依赖的遥操作界面仅适用于稳定工作空间,大幅简化了控制逻辑。但真实场景(如家庭、辅助场景)需要移动操纵机器人——它们需在环境中导航并执行多样操纵策略,然而这类机器人的大规模数据集仍较为稀缺,核心瓶颈在于“移动性”:一方面扩大了机器人的操作空间,另一方面却增加了控制与反馈的复杂度,要求操作者在动态、广阔的操作空间中保持情境感知,进而推高认知负荷,对反馈机制的有效性提出更高要求。
本研究的核心目标是探索遥操作中的两大关键要素——控制范式(耦合具身/解耦具身)与视觉反馈模态(沉浸式VR/传统屏幕)——对长期移动操纵任务的影响,尤其关注如何在“具身感”“认知负荷”“任务效率”三者间找到平衡,为移动操纵机器人的大规模高质量数据收集提供界面设计依据。研究特别针对“长期任务”展开,这类任务需要全身协调、误差恢复及长时间操作稳定性,是此前研究中被忽视的复杂场景。
相关工作回顾
现有遥操作界面研究多围绕特定任务优化操作者效率,涵盖工作负荷、可用性、模拟眩晕等态度指标,以及任务完成时间、轨迹平滑度等行为指标,部分研究还提出了性能与可用性评估框架,但均局限于短期、低操纵难度的任务。
具体来看,已有研究包括:将双臂机器人系统改造为移动遥操作系统,发现普通操作者经5次尝试后可接近专家水平,凸显界面设计对学习曲线的影响;探索VR控制器、视觉跟踪、空间鼠标等多种输入模态,证实多控制方案结合的混合模式能提升直觉性与精度;研究控制频率对性能的影响,发现频率从50Hz降至5Hz会导致任务完成时间增加62%;对比VR与传统2D界面,发现VR虽能提升空间感知,但会延长任务完成时间;此外,外骨骼遥操作、基于混合现实或3D人体姿态估计的学习式遥操作也被应用于类人机器人。
与上述研究不同,本研究聚焦“高认知需求的长期移动操纵场景”,综合评估控制具身模式与反馈模态对操作者体验的协同影响,填补了长期任务下遥操作界面设计的研究空白。
遥操作系统设计细节
研究搭建的遥操作系统以PAL Tiago++机器人(全向底座)为控制对象,搭配HTC Vive Pro VR设备,核心测试两种控制器与两种视觉反馈模态的组合(共4种界面),同时构建Gazebo仿真环境用于训练(仅训练用途)。
控制器具身方案(SBC vs WBC)
两种控制器的核心差异在于“臂操纵与底座导航的耦合关系”,均基于关节阻抗控制器实现安全交互:
解耦具身控制器(SBC):将底座运动与臂运动拆分为独立控制系统,操作者可按需单独控制。其中,臂控制器采用逆运动学(IK)求解器(基于Pinocchio运动库),结合零空间优化(以可操纵性为准则,避免不可达姿态),通过VR控制器以30Hz频率估计末端执行器位姿变化,计算目标关节角;底座控制则参考相关设计,采用带VR跟踪器的3D方向舵,将速度输入转换为底座相对位置变化。 耦合具身控制器(WBC):以15Hz频率运行,基于TSID库通过任务空间逆动力学(QP优化)计算目标关节运动,结合关节阻抗实现全身控制。操作者仅需VR控制器,可在两种模式间切换:末端执行器模式(EE模式)优先直接控制末端执行器,不联动底座;全身操纵模式(WBM模式)保持末端执行器稳定,同时允许操作者直接控制肘部与底座,并集成自碰撞避免逻辑。
视觉反馈模态设计
两种反馈模态的核心差异在于“操作者获取机器人视野的方式”:
带VR模态:操作者佩戴VR头显,可切换3个立体相机视角(2个固定于房间、1个安装于机器人头部),且机器人头部运动与头显运动联动,实现视角随头部转动同步调整。 无VR模态:操作者不佩戴头显,可自由观察房间环境,同时通过外部屏幕实时查看上述3个相机的全部视频流。
任务序列设计
为全面评估控制器的导航与操纵能力、反馈模态对姿态估计与机器人定位的支持能力,研究设计了厨房环境中的长期连续任务序列,任务间无需复杂环境重置,具体流程如下:
从倾斜停车位出发(左臂抬起),驱动机器人至抽屉处并打开抽屉; 导航至厨房柜台另一侧,拾取瓶子; 将瓶子放入已打开的抽屉; 关闭抽屉; 将机器人驶回停车位。
该序列需机器人全身协调:例如任务1需精确导航使抽屉处于臂的可达范围,同时预留抽屉打开空间;任务2需平衡底座导航精度与臂的抓取灵活性;任务3需维持瓶子稳定并精准对齐抽屉;任务5需在时间约束下完成定位回归。任务的长期属性还会引发操作者疲劳,进一步增加认知负荷,任务的空间布局与设备摆放可参考figure 2b。

用户研究设计与流程
研究以“控制器”“反馈模态”“尝试次数(Trial)”为核心变量,采用混合设计方案,旨在量化不同界面组合对操作者表现与体验的影响,各变量的分析类型(被试间/被试内)与可选方案见table I。

研究设计与被试
变量设置:2种控制器(SBC/WBC,被试间设计,避免学习效应干扰)、2种反馈模态(带VR/无VR,被试内设计)、3次尝试(Trial 1-3,被试内设计,追踪学习曲线),共4种界面组合,每个组合测试3次。 被试分层:20名被试按VR经验、电子游戏经验、遥操作经验、驾驶经验、惯用手、性别、视力状况分层,确保两组控制器的被试特征均衡。被试以年轻成人为主(SBC组平均24.4岁,WBC组平均25.4岁),多为工程领域硕士或在读硕士(整体90%),且以右利手为主(两组均9人)。
实验流程
单名被试实验时长约2小时,流程如下:
填写个人信息问卷(用于分层验证)与知情同意书; 穿戴上身运动捕捉服,完成运动捕捉校准(确保身体姿态跟踪精度); 随机确定反馈模态测试顺序(规避启动偏差),接受系统与任务说明; 仿真训练:按确定顺序,每种模态训练6分钟(先自由控制机器人,再尝试开抽屉、拾瓶子任务,熟悉操作); 真实场景训练:每种模态训练4分钟(流程与仿真训练一致,适应真实机器人响应); 真实场景任务测试:每种模态完成3次完整任务序列; 切换模态,重复步骤5-6。
评估指标
指标分为行为指标与态度指标,全面覆盖任务性能、操作者负荷与体验:
行为指标:任务完成时间、任务得分(成功10分/部分成功7分/部分失败4分/失败0分)、工效学数据(基于Optitrack系统计算RULA姿势得分、左臂质心(CoM)偏差)、设备数据(VR控制器/头显/跟踪器的位姿与速度、机器人关节状态、相机流选择,均记录于ROSBAG); 态度指标:通过标准化问卷收集,包括每次尝试后的简易可用性问卷(SEQ)与工作负荷问卷(ARWES)、每种模态3次尝试后的详细评估(NASA TLX工作负荷、UMUX可用性、OATS训练有效性)、带VR模态后的简化模拟眩晕问卷(SSQ),以及实验结束后的界面对比反馈。
关键研究结果分析
所有指标均通过正态性检验(Shapiro-Wilk test,p<0.05),因此采用非参数检验(Mann-Whitney U检验用于被试间变量,Wilcoxon Signed-Rank Test用于被试内变量,线性混合效应模型LMM用于含Trial的重复测量),统计结果见table II。

任务性能:模态影响时间,控制器影响效率
完成时间:反馈模态与控制器对完成时间影响显著。带VR模态使总完成时间增加142秒(p=0.026),核心原因是VR中的深度感知受限;SBC控制器(解耦)比WBC(耦合)完成时间短169秒(p=0.025),因SBC允许直接独立控制底座,操作更灵活;Trial次数存在边际学习效应,每增加1次尝试,完成时间减少31.64秒(p=0.12)。 成功率:所有条件下成功率均较高,平均得分9.4/10(p<0.0001),且控制器类型(WBC得分低1.50分,p=0.27)、反馈模态(VR得分低1.20分,p=0.37)、Trial次数均无显著影响。这意味着VR虽延长时间,但不会导致任务失败或性能质量下降;各任务难度均衡,无单一任务持续更难或更易。
人机界面评估:VR负荷更高,控制器各有优劣
1. 可用性:VR显著降低易用性,WBC在多维度略逊
SEQ问卷(每次尝试后收集,仅测“易用性”)显示:Trial次数存在边际学习效应(p=0.068),操作者随尝试次数增加更易完成任务;控制器无显著差异(p=0.386),SBC与WBC的界面复杂度感知相近(见figure 3)。

UMUX问卷(每种模态后收集,测多维度可用性)显示:SBC的可用性得分略高于WBC(p=0.15),差距主要来自WBC在“挫折感”“期望满足度”“错误补偿频率”等SEQ未覆盖的维度表现较弱;带VR模态的可用性显著低于无VR(SEQ p=0.003,UMUX p=0.006),操作者普遍认为VR模式下任务更难。
2. 工作负荷:VR加剧负荷,控制器负荷类型不同
ARWES问卷(每次尝试后收集,单题测总负荷)显示:带VR模态的负荷显著高于屏幕模态,操作者需投入更多精力。 NASA TLX问卷(每种模态后收集,多维度测负荷)进一步证实:带VR模态下,认知需求、体力需求更高,性能感知更低,整体负荷显著上升(见figure 4雷达图,蓝色区域为带VR组合,面积更大表示负荷更高;figure 5箱线图显示,带VR模态平均得分落入“高负荷”区间,无VR落入“中等偏高负荷”区间);控制器对负荷维度影响不同:SBC引发更高物理需求(p=0.02),WBC引发更高挫折感(p=0.009),与UMUX中WBC的挫折感问题一致。


3. 工效学:整体风险中等,WBC物理波动更大
RULA得分(评估肌肉骨骼风险)显示:控制器(p=0.6)、反馈模态(p=0.4)、Trial次数(p=0.29)均无显著影响,平均总得分4.12±0.27,表明长期操作存在中等肌肉骨骼风险。风险主要来自上臂(平均得分3.28±0.23,对应上臂抬升角度45°-90°)与手腕(平均得分2.86±0.22,对应手腕频繁弯曲超15°),而颈部、躯干、下臂得分1-2分(最低风险),多保持直立姿势与水平前臂姿态。 质心(CoM)偏差显示:WBC的CoM偏差波动显著大于SBC(见figure 6,专家用户无VR模式下,WBC的CoM偏移更频繁)。这是WBC设计固有属性——底座运动需操作者通过控制器位姿差异激活,映射为车轮速度,导致身体姿态调整更频繁,长期使用可能加剧疲劳。

VR专项分析:SBC用户更依赖头部视角,真实场景易引发不适
视角选择:SBC用户在带VR模态下,使用机器人头部相机的比例(60.4±38%)显著高于WBC用户(36.8±39%,t检验p<0.0001),表明SBC用户在VR中具身感更强,对自身视角(头部相机)更信任。 眩晕感:真实场景中,VR引发的眩晕感接近显著水平(需关注);仿真场景中眩晕感极轻,原因是仿真训练时间更短,且缺乏真实场景的环境反馈。研究指出,优化视频流延迟与分辨率可显著降低VR眩晕。
仿真训练评估:训练有效,但仿真难度高于真实
OATS问卷显示:仿真训练的相关性(4.75±1.2)、有效性(4.8±1.2)、整体质量(4.78±1.2)均较高(7分制),说明仿真能有效帮助操作者熟悉系统。 任务难度感知:仿真中完成任务的难度显著高于真实场景(带VR p=0.015,无VR p<0.0001),但ARWES问卷显示两者的物理/认知负荷无差异(p>0.8)。难度差异主要来自两方面:仿真为操作者首次接触系统,存在启动偏差;仿真缺乏真实场景的音频反馈,降低了“在场感”。
初步模仿学习实验结果
为验证不同控制器收集数据的质量,研究针对“开抽屉”任务(任务1),收集SBC与WBC(均无VR)各50条轨迹,训练基于Transformer的Diffusion Policy(无视觉输入)。
状态空间:机器人10自由度关节状态(3个底座自由度+7个臂自由度)、末端执行器3D位置、抽屉打开1D位置(由Optitrack获取); 动作空间:10自由度目标关节状态、抓手状态; 成功率:WBC数据训练的策略成功率80%(5次尝试中4次成功),SBC数据训练的策略成功率0%。
失败原因在于SBC数据缺乏“臂-底座耦合”信息,导致学习到的策略易进入“分布外状态”(即训练数据中未覆盖的姿态),无法稳定执行任务。虽样本量较小(非统计显著),但已表明耦合具身(WBC)收集的数据更适合模仿学习,数据中的运动关联性更强。
参考
[1]The Role of Embodiment in Intuitive Whole-Body Teleoperation for Mobile Manipulation