让机器人学会「对焦」的人眼式感知策略:推理加速3倍!

3D视觉工坊 2025-10-17 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

让机器人学会「对焦」的人眼式感知策略:推理加速3倍!图1

加州大学伯克利、加州大学戴维斯、同济大学最新力作:受人眼聚焦启发的机器人感知,让机器人策略学习更高效、更健壮 👀

人类的视觉由注视(gaze)和中央凹化(foveation)驱动——我们会自动把注意力集中到关键区域,从而大幅减少视觉处理负担。相比之下,机器人通常会“平均处理”整个视野,缺乏这种主动聚焦的能力。 我们的研究提出 GIAVA(Gaze-Integrated Active-Vision ALOHA) 框架,将人类式的注视机制与中央凹化视觉变换器(foveated ViT)引入双臂机器人系统,使其具备“看重点”的能力。 通过结合人眼注视估计中央凹化的视觉分块策略,我们将视觉计算量降低了 94%,同时提升了效率鲁棒性,甚至在多种复杂的模仿学习任务中性能更优。 此外,我们还发布了一个面向注视条件学习的开源仿真基准与数据集

让机器人学会「对焦」的人眼式感知策略:推理加速3倍!图2
  • Paperhttps://arxiv.org/pdf/2507.15833
  • Code + Datasetshttps://github.com/ian-chuang/gaze-av-aloha
  • VR Unity Codehttps://github.com/Soltanilara/av-aloha-unity/tree/eye-tracking
  • arXivhttps://arxiv.org/abs/2507.15833

视频

我们提出 GIAVA(Gaze-Integrated Active-Vision ALOHA)——一种受人眼启发的中央凹化视觉框架,将人眼注视与中央凹化视觉变换器和机器人控制结合,从而实现高效且稳健的策略学习。

摘要

人类视觉是一种由注视驱动的主动过程,通过中央凹化将注意力集中在与任务相关的区域,从而大幅减少视觉处理量。相较之下,现有的机器人学习系统通常依赖于对原始相机图像的被动、均匀处理。本文探讨了将人类式主动注视机制融入机器人策略的潜力,以提升其效率与鲁棒性。

我们开发了 GIAVA(Gaze-Integrated Active-Vision ALOHA),一种能模拟人类头颈运动与视线调整的机器人视觉系统,从而实现中央凹化的视觉处理。在 AV-ALOHA 平台的基础上,我们构建了一个框架,可同步采集人类操作员的眼动追踪、视角控制及机器人操作演示数据。同时,我们开源了一个用于训练基于注视的机器人策略的仿真基准与数据集。

受近期中央凹化图像分割研究的启发,并结合 Vision Transformer(ViT)在机器人学习中的广泛应用,我们通过一种中央凹化分块(foveated patch tokenization)方式将注视信息引入 ViT。与传统的均匀分块相比,该方法显著减少了 token 数量,从而降低计算量。为此,我们探索了两种注视估计方法:

  1. 两阶段模型:先独立预测注视点,再利用其指导中央凹化与动作生成;
  2. 端到端联合模型:将注视视作动作空间的一部分,使策略能够同时预测注视与动作。

实验结果表明,我们的中央凹化视觉方法显著降低了计算开销,并增强了模型在复杂背景干扰下的鲁棒性。在部分高精度任务中,中央凹化视觉甚至带来了性能提升,成功率更高。 综上,我们认为人眼式中央凹化视觉处理在机器人视觉系统中具有巨大潜力,值得作为一种有益的先验偏置进一步探索。

数据采集(Data Collection)

我们使用 GIAVA 平台采集含有人眼追踪信息的双臂机器人操作演示数据。机器人将立体相机图像流传输至 VR 头显,头显同时回传头部与手柄位姿以控制机器人,并记录人眼注视数据。

演示视频

带注视追踪的人类演示(Human Demonstrations with Eye-Tracking)

  • Cube Transfer cube_demo.mp4
  • Peg Insertion peg_demo.mp4
  • Slot Insertionslot_demo.mp4
  • Hook Package hook_demo.mp4
  • Pour Test Tube pour_demo.mp4
  • Thread Needle thread_demo.mp4
  • Ball ball_demo.mp4
  • Toothbrush toothbrush_demo.mp4

策略架构(Policy Architecture)

让机器人学会「对焦」的人眼式感知策略:推理加速3倍!图3

注视预测(Gaze Prediction):两种方式

  • Fov-UNet:层次化两阶段模型,先用 UNet 预测注视,再用其指导策略;
  • Fov-Act:端到端方法,将注视并入动作空间,策略同时预测注视与动作。

分块方式(Tokenization):Fov-UNet 与 Fov-Act 使用围绕预测注视点的中央凹化分块;Fine 与 Coarse 不预测注视,采用标准均匀分块。

策略结构(Policy Architecture): 采用基于 Transformer 的流匹配策略(Flow Matching Policy)。图像观测 O_{img} 分块后经 ViT 处理,并由 Q-Former 压缩为 token c_{img},通过交叉注意力条件化 Flow Transformer(FT)。本体感知由 MLP 编码为 c_{proprio} 并加入 FT 输入序列。时间步 t 嵌入后通过 AdaLN 作用于 FT。FT 基于带噪动作潜变量 z_{t}c_{img}c_{proprio} 与 t 预测流匹配速度 v_{θ},最终经欧拉积分生成动作。

中央凹化分块(Foveated Tokenization)

thread_tokenization.mp4

(左)输入图像采用标准均匀分块;(中/右)采用中央凹化分块:在注视点附近分配高分辨率补丁,外围使用低分辨率补丁。该方法将 token 数量从 324(均匀) 减少到 20(中央凹化),在保留关键细节的同时,显著降低计算成本。

具有中央凹化视觉的自主执行(Autonomous Rollout with Foveated Vision)

  • Cube Transfer :https://ian-chuang.github.io/gaze-av-aloha/static/videos/cube_fov.mp4
  • Peg Insertion :https://ian-chuang.github.io/gaze-av-aloha/static/videos/peg_fov.mp4
  • Slot Insertion :https://ian-chuang.github.io/gaze-av-aloha/static/videos/slot_fov.mp4
  • Hook Package :https://ian-chuang.github.io/gaze-av-aloha/static/videos/hook_fov.mp4
  • Pour Test Tube :https://ian-chuang.github.io/gaze-av-aloha/static/videos/pour_fov.mp4
  • Thread Needle :https://ian-chuang.github.io/gaze-av-aloha/static/videos/thread_fov.mp4
  • Ball :https://ian-chuang.github.io/gaze-av-aloha/static/videos/ball_fov.mp4
  • Toothbrush :https://ian-chuang.github.io/gaze-av-aloha/static/videos/toothbrush_fov.mp4
说明:由于公众号平台最多只能插入10个视频,上述视频希望大家通过连接进行查看!

BibTeX

@misc{chuang2025lookfocusactefficient,
  title={Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers},
  author={Ian Chuang and Andrew Lee and Dechen Gao and Jinyu Zou and Iman Soltani},
  year={2025},
  eprint={2507.15833},
  archivePrefix={arXiv},
  primaryClass={cs.RO},
  url={https://arxiv.org/abs/2507.15833},
}
本文仅做学术分享,如有侵权,请联系删文。

3D视觉1V1论文辅导来啦!

让机器人学会「对焦」的人眼式感知策略:推理加速3倍!图4

3D视觉学习圈子

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

让机器人学会「对焦」的人眼式感知策略:推理加速3倍!图5

3D视觉全栈学习课程:www.3dcver.com

让机器人学会「对焦」的人眼式感知策略:推理加速3倍!图6

3D视觉交流群成立啦,微信:cv3d001

让机器人学会「对焦」的人眼式感知策略:推理加速3倍!图7

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
传一星机器人解散,李星星是实控人
宁波市智能机器人研发及产业化项目可行性研究报告
【机器人】“机械芭蕾”舞动全球工业机器人加速出海
单月股价涨超61%、近5亿元人形机器人订单,「优必选」加速蜕变
“机器人服务智能体第一股”来了!阿里、腾讯纷纷押注
碾压传统驱动!非接触电场+纳米碳材料,e-MG解锁软体机器人无线可控变形新路径!
70后女总裁带队敲钟港交所,云迹科技成“机器人服务智能体第一股”,三年半亏9亿压力依旧大
对话智元合伙人姚卯青:智元工业机器人不跟传统机械臂比,明年海外收入占比或达3成
AI解锁焊接机器人研发新范式!
“机器人服务智能体第一股”成功登陆港股市场!市值一度逼近100亿港元
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号