具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图1

在机器人操作中，当前常见的VLA/VA视觉运动策略（visuomotor policy）通常需要同时依赖视觉观测和本体状态（如关节角度、末端执行器位姿）来控制动作。虽然这种方法能保证训练环境下的精度，但一旦任务环境或目标位置发生变化，机器人就可能“懵了”，表现大幅下降。

这个问题的原因是当前主流的VLA/VA范式很容易过拟合到训练轨迹，本质上是是模仿学习的本身缺陷所致。对于主流VLA/VA来说，输入有机器人当前的观测Observation和本体State，输出只有Action预测的监督，对于搞过Deep Learning的人来说，我们知道模型在学习的时候会偷懒走捷径：它不认真分析视觉里的物体该怎么抓，而是直接把特定体感状态和固定动作绑定。比如训练时桌子高 80cm，机器人记住当关节角度是 X、夹爪坐标是 Y 时，执行动作 Z 就能抓起笔；可一旦桌子变高到 90cm，原来的体感状态再也没出现过，机器人就彻底懵了，这就是典型的过拟合到训练轨迹，空间泛化能力自然差。

更麻烦的是，要解决这个问题，传统思路要么靠堆数据，要么靠复杂的算法修正，但前者成本极高，后者往往在复杂场景下失效。

来自清华和千寻的高阳团队，创新性地提出了 State-free Policies（无状态策略），让机器人仅依赖视觉观测进行动作预测，不再依赖状态输入，实现了出色的空间泛化能力。

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图2

Paper: https://arxiv.org/pdf/2509.18644
Project: https://statefreepolicy.github.io/

典型案例：相对数据采集时的机械臂位置，两个臂各外移15cm后，有状态和无状态在叠衣服任务上的表现如下视频所示。

一、什么是无状态策略？

无状态策略的核心设计包括三个方面：

1. 去掉状态输入
不再依赖末端执行器位姿、关节角度等状态信息，让策略不能依赖“捷径”记忆训练轨迹。

下图为模型的框架图，为典型的有状态策略（State-aware Policies），就是输入的State向量，去掉状态输入就是去掉。

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图3

2. 相对末端动作空间（Relative EEF Action Space）
机器人预测末端执行器相对移动，而非绝对位置。即便机器人在不同位置执行任务，相同的视觉观测会产生相同的动作。

3. 完整任务视觉观察（Full Task Observation）
末端执行器配备覆盖范围更全的相机设计（比如双广角手腕相机（120°×120°）），再加顶视相机，实现对任务区域的全覆盖，让策略从视觉中理解整个任务。

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图4

二、无状态策略的核心机制

绝对动作与相对动作

无状态策略的核心机制是预测的Action怎么表示和学习，Action的表示可以分为相对动作和绝对动作，相对动作比绝对动作有诸多优势，总结如下表1所示。

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图5 — 表1 相对动作和绝对动作对比

相对关节角与相对末端

相对动作又可分为“相对关节角动作空间（Relative Joint-angle Action Space）”和“相对末端执行器动作空间（Relative EEF Action Space）”，那到底选用哪种Action表示好呢？答案当然是“相对末端执行器动作空间”，我们来具体推演一下。

“相对关节角动作空间”输出的是关节角增量（∆θ），即：

由于正向运动学函数依赖当前关节角，即使机器人在不同高度、不同构型下看到同样的场景，也会因为不同而产生错误的末端位移。这就是为什么“相对关节角动作空间”使用“有状态策略”在空间泛化上会失败的根本原因。

而“相对末端执行器动作空间”采用无状态策略直接输出末端的相对位姿，即：

其中 𝜋 为策略网络，输入为视觉观测，输出为末端相对位移（Relative End-Effector Delta）。

这样一来：

同样的视觉输入 → 输出相同的末端位移；
无需知道关节角或绝对位姿；
末端动作语义稳定、与构型解耦；
具备天然的空间不变性（invariance）。

因此，当桌面升高、物体位置变化时，只要视觉观测一致，机器人就能输出相同语义的动作，实现“视觉一致性驱动”的泛化。

三、详细的对比实验

数据收集和实验设置

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图6

任务设置：

取放任务（Pick Pen / Pick Bottle / Put Lid）
折叠衬衫（Fold Shirt）
整机取瓶（Fetch Bottle，涉及躯干、腰部和腿部控制）

数据通过遥操作收集，每个取放任务（Pick Pen / Pick Bottle / Put Lid）约 5 小时（300 条轨迹），复杂任务（Fold Shirt / Fetch Bottle）约 80 小时（10,000 条轨迹）。训练数据中桌面高度固定，目标物体位置受限，确保策略空间泛化能力来源于模型本身，而非多样化数据。

评估指标：

高度泛化：在不同桌面高度（72 cm 与 90 cm）测试策略表现（数据采集的桌面高度为80cm）。
水平泛化：在二维平面中移动目标物体位置评估策略成功率。

每个任务每个设置下分别进行 30 次试验，完整轨迹成功完成计为成功。

评估模型：使用

真实世界操作任务

1. Pick & Place 任务的空间泛化

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图7

与基于状态的策略相比，无状态策略（State-free Policies）在高度与水平泛化上均有显著提升。

以“Pick Pen”任务为例：

高度泛化成功率从 0 → 0.98
水平泛化成功率从 0 → 0.58

同时进一步使用双广角腕部相机（Dual Wide-angle Wrist-Camera）设置：

高度泛化成功率从 0.87 → 0.98
水平泛化成功率从 0.27 → 0.58

2. 复杂任务的水平泛化

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图8

Fold Shirt：由于布料可变形，折叠操作具有挑战性。
Fetch Bottle（全身动作）：难度更高，因为机器人的躯干运动不可直接观测。
由于硬件限制，这两个任务无法安装双广角腕部相机，因此高度泛化评估不适用。
即便在这些复杂任务中，State-free Policies 仍显示出显著增强的空间泛化能力。
对于场景较简单、任务相关物体较少的任务，普通腕部相机设置仍能提供充分的任务观测（full task observation）。

3. 不同状态表示的空间泛化性

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图9 — 不同状态表示的空间泛化性

评估均采用双广角腕部相机设置。
只有相对 EEF 动作空间在域内与空间泛化任务中均表现最佳，其余动作空间在空间泛化上几乎完全失败。
表明相对 EEF 动作空间对 State-free Policies 的泛化能力至关重要。

4. 不同相机设置的表现

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图10 — 不同相机设置的表现

随着视野扩展，State-free Policies 的空间泛化能力逐渐提高。
有趣的是，即便没有顶视相机，仅使用双广角腕部相机却实现了最佳的空间泛化，说明在当前任务中，双广角腕部相机已经提供了完整的任务观测；顶视相机不仅非必要，甚至可能产生干扰。

5. 不同策略架构上是否同样有效？

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图11

除 π0 外，还评估了其他策略架构（ACT 和 Diffusion Policy），均在双广角腕部相机设置下进行。
结果一致：无状态策略在空间泛化上显著优于含状态策略。
说明 State-free Policies 的有效性独立于具体策略实现，具有普适性和广泛应用价值。

6. State-free Policies 的进一步优势

A. 更高的数据效率

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图12

在“Pick Pen”任务中（双广角腕部相机设置），分别使用 300、200、100 和 50 条微调示范轨迹，进行 2 和 4 个微调 epoch 的训练。
实验结果显示：减少数据会导致含状态策略过拟合并失效，而无状态策略依然保持较高成功率。

B. 更好的跨本体适应性

具身智能6｜State-free Policy：一篇改变VLA范式且真正解决实际问题的工作，让机器人“只看不摸”却更能从容操作！图13

对于含状态策略，跨机体微调需要对齐新的状态空间，即便是基于 EEF（末端执行器）状态，也可能因为不同机体的参考坐标系差异产生偏差。

无状态策略避免了这个问题：只需处理相似相机设置下的微小图像变化，从而实现更高效的跨机体微调。

在“Fold Shirt”任务中（域内设置），策略先在双臂 Arx5 机器人上训练（EEF 空间在桌面坐标系下），然后迁移到类人双臂机器人（EEF 空间在机器人坐标系下）。
收集 100 条类人机器人折叠衣服示范数据，并使用含状态和无状态策略分别从 Arx5 checkpoint 初始化进行微调。
结果显示，无状态策略在跨机体适应中收敛更快，并且在相同微调 epoch 下获得显著更高的成功率，表明其跨本体适应能力优于含状态策略。