01
六轴 vs 七轴:机械臂构型分析
Q1:为什么六轴机械臂在工业中仍被广泛采用?优缺点分别是什么?
A:六轴机械臂在传统工业自动化中是应用最广的标准构型,理由包括:
✅ 优点:
满足6D位姿需求的最小自由度:X、Y、Z+Roll、Pitch、Yaw;
结构成熟稳定:工业标准化程度高;
逆解简单,运动学建模易于实现;
成本低廉:制造、维护、集成均具优势;
生态完善:如ABB、KUKA、FANUC 等厂商有丰富的六轴产品线。
⚠️ 缺点:
存在奇异点问题,尤其是“RPR(Roll-Pitch-Roll)”结构中的 Gimbal Lock(万向节锁);
缺乏冗余:姿态无法优化,无法在空间中绕过障碍进行调整;
逆解离散化,多个解之间不可连续插值,导致轨迹不稳定;
不利于遥操作:姿态控制不灵活,远程操作中会出现“卡顿”、“跳跃感”。
代表产品:
FANUC M-20iA/20M:标准六轴工业臂;
KUKA KR Quantec:汽车制造核心设备;
UR5/UR10:协作机器人经典产品,工业界默认标准。
Q2:七轴机械臂的核心优势在哪里?是否更适用于具身智能场景?
A:七轴在六轴基础上引入一个冗余自由度(通常是“肘部扭转”),具有以下关键优势:
冗余自由度的优势:
避免奇异点:任意末端6D位姿存在无限种关节解,可选最优解;
轨迹连续:在任务执行中更平滑,无需跳解;
姿态优化:可动态调整“肘部朝向”以避障、节能;
遥操作更跟手:通过冗余实现与人类操作结构的自然映射。
与人类结构对齐:
人类肩-肘-腕为典型七自由度结构;
仿人构型适合模仿学习、视觉语言动作训练;
可为未来的双臂任务平台提供硬件基础。
代表产品:
Franka Emika Panda:主打轻量协作、精准模仿学习;
Kinova Gen3:开放控制接口,常用于研究;
KUKA LBR iiwa:敏感力控七轴臂;
Rethink Sawyer:早期七轴灵活协作臂,善于狭小空间任务。
02
极简 vs 仿人构型:两大设计路线
Q3:为何一些机器人系统坚持使用“极简六轴”?其适合哪些任务?
A:例如 Pi0、RT-1 Mini、SimplerEnvs 等开源系统采用极简构型的原因包括:
控制模型统一:所有机器人采用固定结构与任务空间,便于模型对齐;
模拟器一致性高:仿真-实机迁移更方便;
数据采集高效:姿态无冗余,轨迹唯一;
任务标准化:桌面拣选、按键、放置等任务无需姿态冗余;
低成本、高鲁棒性:硬件集成快,适合教学、科研、轻型商用。
典型系统:
Pi0 (Physical Intelligence):6轴模型统一结构,专注于大模型模仿学习;
RoboMimic Envs:构型一致,强化模仿训练对齐更方便;
RT-1 Mini:Google 使用极简六轴(+底盘)机器人训练600+任务策略。
Q4:仿人构型为何更适合远期通用机器人发展?
A:
与人类数据匹配性高:仿人臂可复现人类视频/动作序列;
支持复杂轨迹优化:如避障、转体、多路径融合;
适用于双臂协作:两臂冗余构型可协同处理物体;
灵活适应非结构化环境:如家庭、工厂夹缝、汽车后备箱等复杂空间。
典型系统:
NASA Valkyrie:仿人构型+双臂操作+多任务重部署;
Tesla Optimus(拟):人形结构强调关节灵活性与任务适配;
Open-X-Embodiment数据集:明确区分仿人型臂和极简臂的数据迁移差异。
03
构型 vs 算法:能否靠算法“补齐硬件短板”?
Q5:现代算法(模仿学习、VLA、强化学习)能否解决六轴构型的限制?
A:可以部分缓解,但不能完全解决。具体来说:
✅ 可解决的:
轨迹平滑:可利用深度学习平滑离散轨迹,减少跳跃;
策略补偿:通过模仿学习训练策略避免进入奇异姿态;
姿态优化:基于图优化或强化学习动态调整夹持方向。
❌ 无法解决的:
奇异点本身:如在RPR结构中,Pitch=0°时Roll/Yaw耦合导致自由度丢失;
姿态不可达区域:六轴机械臂无法完成某些相对位姿转换(如保持夹爪姿态同时避开障碍);
控制不连续性:某些动作存在不可逆的跳解,训练模型可能无法捕捉全部变种。
案例:
RT-1:虽然使用了模仿数据训练Transformer模型,但仍受限于六轴构型;
π0 (FlowDiffusion):设计时就特意选用统一六轴构型,但只能适配标准桌面任务;
LeRobot (SmolVLA):建议使用7轴以上构型以充分释放模型潜能。
Q6:七轴IK求解难度大吗?是否可以靠神经网络解决?
A:七轴机械臂逆解存在“冗余自由度问题”,即在给定末端位姿下,有无穷多个关节解。
常见方法有三类:
1. 解析法:先确定冗余臂角θ,再用几何推导出其他关节角;适合特定结构;
2. 数值法:如DLS(阻尼最小二乘)、伪逆法+优化目标(如避障/最小能耗);
3. 学习方法:训练神经网络预测关节角,或者将臂角映射为正解参考。
⚠️ 挑战在于:
神经网络方法对分布外任务或奇异点泛化能力差;
冗余变量(如臂角)输入不当容易导致网络收敛不稳定;
精度不易控制,特别是高精度任务(≤1cm)下。
工具推荐:
BioIK (ROS MoveIt插件):支持冗余IK优化;
ikfast:开源解析求解器;
DiffIK:最近提出的神经网络可微分IK方法。
04
遥操作系统、算法与硬件
Q7:为什么遥操作成为当前具身智能的“必选项”?
A:在当前智能算法还不够泛化的背景下,遥操作起到了三大关键作用:
1. ✅ 快速跑通流程:不依赖复杂模型,商业化可落地;
2. ✅ 数据采集渠道:人类直接操作产生高质量示教轨迹(图像+语言+动作);
3. ✅ 训练中人类干预:强化学习/模仿学习中的重要组件,如HIL、D-COACH、Corrective RL。
现实挑战:
操控延迟问题(通信/控制频率);
“跟手感”差导致精度下降;
缺乏高质量通用遥操作工具链。
典型使用:
Open X-Embodiment:大量数据来自遥操作;
星海图:使用远程操作面板采集现实商场任务数据;
Meta HIL-SERL:结合人类干预与多机训练,数小时训练复杂抓取任务。
Q8:遥操作系统有哪些?硬件支持设备有哪些?
A:
系统/平台:

遥操作输入设备:

遥操作数据格式建议:
图像(多角度RGB)+ 语言指令 + 动作轨迹(关节、末端、Pose);
记录频率建议 10-50Hz;
对应时间戳 & 同步音频语义。
05
灵巧手 vs 夹爪:硬件、应用与生态对比
Q9:为何大多数机器人系统仍采用“夹爪”而非“灵巧手”?
A:
夹爪优点:
结构简单(2指/3指并联);
稳定性高,维护便宜;
抓取力强、响应快;
控制接口标准,易于接入ROS/PLC等系统。
灵巧手劣势:
成本高:动辄数万元至数十万元;
控制算法不成熟(如Dexterous Manipulation);
抓取可靠性差(多自由度失控风险大);
维修难度大、故障率高。
场景适配:
夹爪:工业装配、拣货、装箱、拣选等;
灵巧手:仿人操作、多物体切换、手内重构、软物体调姿。
Q10:有哪些商用与开源的灵巧手/夹爪案例?
A:
典型产品对比:

研究成果:
Google RT-X:在灵巧手上训练RT-VLA类大模型;
DexVLA:基于VLM的多手指策略生成模型;
OpenDexteritySuite:MIT提出的高自由度灵巧手仿真训练平台。
06
商业化策略:从整机到模型到生态平台
Q11:“整机+模型+遥操作”的产品体系具体指什么?其商业逻辑是什么?
整机(R1 Pro / R1 Lite)
自研机器人平台,具备七轴手臂+双目+RGBD+力觉;
针对场景打造(如商场、工厂、仓储);
可远程部署+远程操控+支持自动/半自动运行。
预训练模型
基于遥操作/模仿学习数据训练的通用VLA模型;
支持类RT-1/π0结构,将图像+语言→动作;
在少量样本下可快速适配新任务(few-shot learning)。
后训练工具链
包括遥操作系统、数据录制、模型微调平台;
类似“教新员工”:人类通过遥操作教机器,机器学习模仿;
之后模型部署至机器人本体,自主运行+反馈优化。
商业逻辑:
前期通过遥操作“跑通流程”;
中期靠模型微调“提升效率”;
长期通过生态合作“构建平台壁垒”。
Q12: To B + To D 商业模式分别怎么定义?优点在哪?
A:

对比图灵、优必选等公司:
星海图强调平台化 + 开放;
优必选更偏硬件销售;
图灵更强调软硬一体闭环;
Figure AI 则聚焦底层模型+具身大脑打造通用人形。
Q13:当前主流公司各自的商业策略和进展是什么?
A:

07
开源数据平台现状与趋势
Q14:目前有哪些代表性的具身智能开源数据集?它们的特点是什么?
A:

数据采集方式趋势:
从封闭室内仿真 → 真实遥操作(如DROID、星海图);
从单模态图像+动作 → 图像+语言+多摄像头+力/触觉;
从一次性采集 → 可持续交互式采集(如GenieSim支持回放、修正);
采集工具链逐步标准化:如LeRobot SDK、Robomimic格式、RT-Format。
Q15:未来数据平台的建设重点将在哪里?
A:未来数据平台将朝以下方向发展:
1. 标准化任务与格式:统一机器人接口与数据结构(如Open X-Embodiment);
2. 多模态覆盖:图像、语言、动作、力觉、触觉、音频同步;
3. 异构机器人融合:不同机械臂/夹爪/传感器的通用性支持;
4. 交互式采集能力:可在线标注、远程回放、纠正错误轨迹;
5. 云端训练与评估闭环:数据→模型→部署→再回收数据;
6. 与商业闭环连接:采集即部署即价值,直接形成收益与优化。
✅ 总结观点汇总:


