作者丨Junjie Fang 等
编辑丨具身智能之心
本文只做学术分享,如有侵权,联系删文
>>
更多干货,欢迎加入国内首个具身智能全栈学习社区:(戳我),这里包含所有你想要的。
如果用一句大白话概括这篇工作的目标,那就是:让数据采集者不用把机器人搬到现场,也能看见策略哪里会错,并马上采到最该补的那部分数据。
这篇论文《RoboPocket: Improve Robot Policies Instantly with Your Phone》核心团队来自上海交通大学 MVIG 实验室,上海创智学院与穹彻智能。MVIG 实验室长期致力于通用机器人操作算法与系统的研发。实验室硕士生方俊杰、博士生陈文迪、薛寒与本科生周方圆是本工作的共同第一作者,薛寒领导了本项目的开发,汶川教授与卢策吾教授是本工作的共同通讯作者。它想解决的,其实是机器人学习里一个越来越尖锐的矛盾: 大家都知道数据要继续扩,模仿学习要继续 scale,但真正限制系统进步的,已经不只是“数据不够多”,而是“有用的数据来得太慢”。
-
论文标题:RoboPocket: Improve Robot Policies Instantly with Your Phone -
项目主页:https://robo-pocket.github.io -
论文链接:https://arxiv.org/abs/2603.05504
RoboPocket 总览视频
传统的机器人数据采集,大致有两条路。一条是 ALOHA、GELLO 这一类依赖真实机器人或主从硬件的精密遥操作系统,优点是数据质量高,缺点也很明显: 贵、重、难铺开,采集半径几乎被机器人本体锁死。另一条是 UMI、FastUMI 这一类手持式、in-the-wild 的数据采集路线,优点是便携、便宜、适合走向规模化,但它们大多还是开环的: 采集者只能录数据,却看不见当前策略到底会怎么做,也不知道模型真正薄弱的状态分布在哪里。至于 DAgger 一类交互式方法,虽然能更有效地修复 covariate shift,但前提是必须让机器人真机上场。这又带来了安全、成本和调度上的“部署悖论”: 你想高频迭代策略,就得频繁部署真实机器人;可一个还不够成熟的策略,恰恰最不适合被频繁部署到真实环境里。
RoboPocket 的切入点很聪明。它没有只把手机当成一个便携传感器,而是把手机变成一个会提示、会验收、会让人看见策略意图的智能采集终端。论文里有一句很有代表性的表达,叫做 “put a robotics expert in every pocket”。如果换成更生活化的比喻,可以把 RoboPocket 理解成一位随身的机器人教练: 它不仅让你录动作,还会告诉你这条轨迹靠不靠谱、策略下一步想往哪走、现在该不该补一条纠错数据。
这篇工作的技术核心,是把原来被拆开的四件事重新接到一起: 看策略、找弱点、采纠错、在线更新。具体来说,RoboPocket 先在硬件上做了一个低成本但很讲究“同构性”的手持夹爪。团队复现了 Robotiq 2F-85 的欠驱动特性,还做了杠杆结构来放大人的手指输入,整套 BOM 成本大约只有 70 美元。手机端加了鱼眼镜头扩大视野,同时通过基于 ESP32 的蓝牙接口读取夹爪开合量,磁编码器分辨率做到 0.088°,30Hz 采样。换句话说,它不是随手拿个手机录视频,而是在认真构造一个尽量接近真实末端执行器物理行为的“口袋版机器人手”。
更关键的是软件闭环。RoboPocket 在手机端持续做主动质检: 一边监控 SLAM 特征密度和速度跳变,判断当前追踪是否可靠;一边用设备端的逆运动学求解器判断当前动作是不是在真实机器人上可执行。一旦检测到异常帧,系统会立刻通过视觉和触觉反馈提醒用户。采完之后,用户还能直接在 AR 视图里回放轨迹,看数字轨迹和真实操作是不是对得上。这一步非常重要,因为它把数据质量控制从“事后清洗”提前到了“采集当下”。
下面这张 GIF 展示的就是这种“边采边验”的状态。用户在采集过程中,系统会实时判断当前 SLAM 跟踪和运动学状态是否可靠,不需要等回到电脑前再发现哪一段数据根本不能用。

实时数据质量验证:系统在采集过程中直接对轨迹质量进行在线检查和反馈
真正让这篇论文和以往手持采集工作拉开差距的,是它提出的 Robot-Free Instant Policy Iteration。团队把策略推理放到远程 GPU 服务器上,手机做轻客户端,把观测发过去,再把预测结果收回来。整个往返时延控制在 150ms 以内。用户在手机屏幕上看到的,不是抽象的概率输出,而是一串投影到真实世界中的 AR 轨迹点。论文里把它形容成 virtual coins,很像一条“金币路径”。这条路径的价值在于,它把“策略打算怎么做”直接暴露给了采集者。
下面这两个 GIF 其实最能说明 RoboPocket 的工作方式。这个任务的目标,是把红色、绿色和蓝色方块分别放进对应颜色的盒子里。先看纠错这张图: 在模型当前视野里,红色和绿色方块同时可见,但因为绿色方块更近,策略会优先朝绿色方块走,准备做出一次错误抓取。用户这时不需要等机器人真的执行错误动作,只要从这个“将错未错”的位置开始,录制一条错误恢复轨迹,把动作纠正到正确的红色方块上即可。

AR 视觉预见纠错示例:模型原本会去抓更近的绿色方块,用户从这个错误边缘状态开始录制恢复轨迹,把动作纠正到红色方块上
这些纠错数据上传后,训练服务器会持续监控新数据流入,并用一个很朴素但有效的在线微调策略更新模型: 每个 batch 里 50% 采样自原始离线数据,50% 采样自新收集的在线纠错数据。这样既能快速拟合新失败模式,又能尽量避免灾难性遗忘。模型大约每 1 分钟就会同步一版新的权重回推理服务器,所以用户能很快再次回到同样的位置,检查这个错误是不是已经被修掉了。
接着看 success 这张图。它对应的是和前面非常接近、同样容易误抓绿色方块的位置,但这一次模型已经学会修正自己的意图,会在靠近错误选择之前“掉头”,转去抓取正确的红色方块。这个前后对照很关键,因为它把 RoboPocket 的闭环价值说得很清楚: 不是单纯多采一条数据,而是让用户在差不多一分钟后,就能看到“之前会犯的错,现在不再继续犯”。

AR 视觉预见成功示例:在同样容易误抓绿色方块的位置,更新后的模型已经学会转向并抓取正确的红色方块
这其实解决了一个很本质的问题。传统 shared autonomy 或交互式模仿学习里,人通常是在机器人“已经要错了”或者“已经错了”之后才接管,属于被动补救。RoboPocket 则把这种机制改成了主动干预。采集者通过 AR 先看到策略的意图,再通过物理按钮随时触发新的推理查询,在策略最脆弱的状态附近主动采数据。于是,识别失败模式、录制纠错数据、等待新模型上线、重新验证错误是否消失,这几步第一次被压缩成了一个接近实时的闭环。
如果把整个过程浓缩成一张动态图,可以把它理解成这样一个循环: 用户看到策略将要怎么动,在错误边缘位置录下一条恢复轨迹,数据立刻上传,服务器在线微调,再把新模型回传到手机端。整套闭环不再是“采一批、训一晚、第二天再看”,而是接近实时地滚动前进。
RoboPocket 即时策略迭代闭环示意
从学术角度看,这篇论文最扎实的地方,是它没有只展示几个“很酷的视频”,而是认真回答了三个问题。
第一个问题是,这套系统到底是不是“能认真拿来采机器人数据”的工具,而不只是一个概念验证。论文用一个很直接的方法回答了这个问题: 把 RoboPocket 刚性固定在机器人末端,拿真实机械臂轨迹当 ground truth 来测它的跟踪精度。结果是,单设备时平均累计三维位置误差只有 2.8mm,旋转误差 0.4°;作为参照,UMI 那套标准惯性-单目 SLAM 的对应误差是 6.1mm 和 3.5°。如果扩展到双设备共享地图同步,RoboPocket 依然把位置误差控制在 4.0mm,峰值 7.5mm,旋转误差 0.7°。换句话说,它不是靠牺牲精度换便携性,而是在便携条件下,仍然把轨迹质量维持在一个对机器人学习真正有用的水平。
效率上的差别也不是“小快一点”,而是工作流层面的差别。做同样的倒调料任务,UMI 流程里要先花 8 分 34 秒采集,再花 1 分 24 秒传输数据,最后还要等 9 分 12 秒离线跑 SLAM;RoboPocket 因为把 SLAM 和验证都前移到采集时完成,整段数据采集只要 3 分 51 秒,传输 1 分 37 秒,后面没有一段长时间的离线等待。它缩短的不只是一个环节,而是把“采完再等结果”的流程改成了“边采边知道能不能用”。
第二个问题是,这类手机采的数据,在统计意义上到底“够不够学术”。团队专门做了一个 Mouse Arrangement 数据实验,覆盖 32 个环境、47 组物体组合,实际采样形成 64 个 environment-object pairs,总共收集 1600 条演示。这里值得强调的是,这 32 个环境不是实验室里轻微改摆件得到的几种变体,而是一组覆盖室内外、不同纹理、不同光照条件的真实采集场景。也就是说,作者不是在一个干净、受控的桌面上验证“手机也能采数据”,而是在认真验证这套系统是否真的适合走向 in-the-wild 的规模化数据生产。
结果显示,策略性能与数据多样性之间呈现出和已有 Data Scaling Laws 工作一致的幂律关系,相关系数达到 r = -0.962 和 r = -0.882。这意味着 RoboPocket 不是只能做几个 demo 的漂亮系统,它采出来的数据确实能进入“规模化学习”的讨论框架。
第三个问题,也是这篇论文最核心的问题,是 RoboPocket 能不能真正突破纯模仿学习“越加数据越慢”的边际收益递减。论文在四个任务上做了对比: 长时序的积木分类、需要大幅手腕旋转的倒调料、依赖柔性物体感知的叠毛巾,以及双臂零食装袋。结论很鲜明: 针对失败模式的即时纠错,价值明显高于盲目堆更多离线数据。
整体上,RoboPocket 的 Instant PI 相比纯 IL 基线实现了最高 2 倍的数据效率提升。在叠毛巾任务里,一个特别能说明问题的结果是,传统的人工专家纠错反而让分数从 0.73 掉到 0.50,而 RoboPocket 的 Instant PI 能稳定做到 0.88。这说明对于感知难、状态脆弱的任务,纠错不是“有人来补就行”,而是必须让纠错者真正看见策略在想什么。双臂零食装袋任务里,RoboPocket 用更少的混合数据就超过了 300 条纯 IL 基线,分数从 0.51 提升到 0.56。倒调料任务里,它和 300 条 IL 的结果相当,但方差明显更低,Instant PI 是 0.08,Offline PI 则是 0.30。
如果只看曲线,读者未必能直观看到“少量纠错数据到底改掉了什么”。下面几段动态结果会更直接一些。积木分拣任务里,模型需要在长时序过程中持续记住颜色和顺序关系,RoboPocket 的即时迭代能够把原本容易在中途跑偏的策略拉回到正确序列上。

积木分拣任务结果:策略在长时序颜色分拣过程中保持正确执行顺序
倒调料任务的难点在于大幅腕部旋转之后,策略仍要保持对空间位置的稳定判断。这里能看到,即时迭代后的策略在完成抓取、倾倒和回放动作时更稳定,失败波动也更小。

倒调料任务结果:策略在大幅旋转后仍能稳定完成抓取与倾倒
双臂零食装袋则更能体现“针对性纠错”的价值。这个任务本来很容易受到遮挡和双臂协同误差影响,但在补充了关键恢复数据之后,策略能更稳定地把零食送入袋中。
双臂零食装袋结果:补充关键纠错数据后,策略能更稳定地完成装袋
如果说上面的实验更多是在证明“这套闭环在单点上成立”,那么论文最后一组结果证明的是它可以被分布式放大。团队让 4 名用户在4 个不同场景里同时做积木分类任务。第一阶段,每人先采 25 条演示,得到一个 100 条数据训练出的基础策略;第二阶段,每个人只额外做 12 次交互式纠错。结果非常亮眼: Scene 2 的成功率从 0.42 提升到 0.82,Scene 4 从 0.52 提升到 0.81。这说明 RoboPocket 不是一个只能在单实验台上运作的闭环,而是一种可以在不同房间、不同用户、不同场景里并行展开的分布式后训练基础设施。
下面这张动态图可以把这种“分布式补盲”看得更直观一些。即使用户分散在不同环境里,只要每个人都能在本地快速补上一小批高价值纠错数据,同一个策略就能在更多真实场景里同步变强。

分布式积木分拣结果:多用户在不同场景中补充少量纠错数据后,策略泛化明显提升
论文还补了一组很有说服力的用户研究。团队找了 10 位志愿者,让他们在短暂热身后分别使用 Offline PI 和 Instant PI 采集纠错数据。结果里,7/10 的参与者认为 AR Visual Foresight “非常有帮助”,8/10 的参与者认为 Instant Policy Iteration “非常有帮助”。更重要的是,作者用 DINOv2 特征做 PCA 可视化后发现,非专家通过 RoboPocket 采到的数据状态覆盖,已经可以接近熟练实验者。这一点对产业尤其关键,因为它意味着 RoboPocket 真正缓解的,不只是机器人数量不足,而是“高质量数据采集长期依赖博士级操作员”的组织瓶颈。
从更大的意义上看,RoboPocket 提供的不是一个新的“小工具”,而是一种新的后训练范式。过去我们总以为,机器人策略想要持续改进,就必须把模型带到机器人本体上、带到部署现场里、带到高成本高风险的试错流程中。RoboPocket 的思路是反过来做: 不把人带到机器人旁边,而是把策略意图带到人眼前。 一旦这件事成立,数据采集、失败定位、纠错和在线微调就不再是分裂的四段流程,而会变成一个可以被众包、被并行、被即时反馈驱动的统一闭环。对学术界来说,这为“数据规模定律之后,如何进一步提高信息密度”提供了一个很具体的答案;对产业界和投资人来说,这意味着机器人后训练有机会从重资产、慢迭代、强专家依赖,走向轻终端、快反馈、弱场地依赖的新基础设施。
当然,这篇工作也很清楚自己的边界。它当前对齐的是平行夹爪,不适合高灵巧手内操作;实验重点仍集中在桌面操作,而不是大范围移动或全身协同任务。但这些限制并不削弱它的价值,反而让人更容易看清它真正打开的那个方向: 当手机不再只是采集器,而成为策略可视化和即时迭代的入口,机器人数据闭环的组织方式就可能被彻底改写。
如果要用一句话收尾,我会说,RoboPocket 最有意思的地方不只是“让手机也能教机器人”,而是它把过去只有研究员在实验室里才能完成的判断力,部分编码进了一个可复制、可分发、可扩展的系统里。让人看见策略的意图,也许比再多录十倍数据更重要。