点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

加州大学伯克利、加州大学戴维斯、同济大学最新力作:受人眼聚焦启发的机器人感知,让机器人策略学习更高效、更健壮 👀
人类的视觉由注视(gaze)和中央凹化(foveation)驱动——我们会自动把注意力集中到关键区域,从而大幅减少视觉处理负担。相比之下,机器人通常会“平均处理”整个视野,缺乏这种主动聚焦的能力。 我们的研究提出 GIAVA(Gaze-Integrated Active-Vision ALOHA) 框架,将人类式的注视机制与中央凹化视觉变换器(foveated ViT)引入双臂机器人系统,使其具备“看重点”的能力。 通过结合人眼注视估计与中央凹化的视觉分块策略,我们将视觉计算量降低了 94%,同时提升了效率、鲁棒性,甚至在多种复杂的模仿学习任务中性能更优。 此外,我们还发布了一个面向注视条件学习的开源仿真基准与数据集。

Paper: https://arxiv.org/pdf/2507.15833
Code + Datasets: https://github.com/ian-chuang/gaze-av-aloha
VR Unity Code: https://github.com/Soltanilara/av-aloha-unity/tree/eye-tracking
arXiv: https://arxiv.org/abs/2507.15833
视频
我们提出 GIAVA(Gaze-Integrated Active-Vision ALOHA)——一种受人眼启发的中央凹化视觉框架,将人眼注视与中央凹化视觉变换器和机器人控制结合,从而实现高效且稳健的策略学习。
摘要
人类视觉是一种由注视驱动的主动过程,通过中央凹化将注意力集中在与任务相关的区域,从而大幅减少视觉处理量。相较之下,现有的机器人学习系统通常依赖于对原始相机图像的被动、均匀处理。本文探讨了将人类式主动注视机制融入机器人策略的潜力,以提升其效率与鲁棒性。
我们开发了 GIAVA(Gaze-Integrated Active-Vision ALOHA),一种能模拟人类头颈运动与视线调整的机器人视觉系统,从而实现中央凹化的视觉处理。在 AV-ALOHA 平台的基础上,我们构建了一个框架,可同步采集人类操作员的眼动追踪、视角控制及机器人操作演示数据。同时,我们开源了一个用于训练基于注视的机器人策略的仿真基准与数据集。
受近期中央凹化图像分割研究的启发,并结合 Vision Transformer(ViT)在机器人学习中的广泛应用,我们通过一种中央凹化分块(foveated patch tokenization)方式将注视信息引入 ViT。与传统的均匀分块相比,该方法显著减少了 token 数量,从而降低计算量。为此,我们探索了两种注视估计方法:
两阶段模型:先独立预测注视点,再利用其指导中央凹化与动作生成; 端到端联合模型:将注视视作动作空间的一部分,使策略能够同时预测注视与动作。
实验结果表明,我们的中央凹化视觉方法显著降低了计算开销,并增强了模型在复杂背景干扰下的鲁棒性。在部分高精度任务中,中央凹化视觉甚至带来了性能提升,成功率更高。 综上,我们认为人眼式中央凹化视觉处理在机器人视觉系统中具有巨大潜力,值得作为一种有益的先验偏置进一步探索。
数据采集(Data Collection)
我们使用 GIAVA 平台采集含有人眼追踪信息的双臂机器人操作演示数据。机器人将立体相机图像流传输至 VR 头显,头显同时回传头部与手柄位姿以控制机器人,并记录人眼注视数据。
演示视频:
带注视追踪的人类演示(Human Demonstrations with Eye-Tracking)
Cube Transfer cube_demo.mp4
Peg Insertion peg_demo.mp4
Slot Insertionslot_demo.mp4
Hook Package hook_demo.mp4
Pour Test Tube pour_demo.mp4
Thread Needle thread_demo.mp4
Ball ball_demo.mp4
Toothbrush toothbrush_demo.mp4
策略架构(Policy Architecture)

注视预测(Gaze Prediction):两种方式
Fov-UNet:层次化两阶段模型,先用 UNet 预测注视,再用其指导策略; Fov-Act:端到端方法,将注视并入动作空间,策略同时预测注视与动作。
分块方式(Tokenization):Fov-UNet 与 Fov-Act 使用围绕预测注视点的中央凹化分块;Fine 与 Coarse 不预测注视,采用标准均匀分块。
策略结构(Policy Architecture): 采用基于 Transformer 的流匹配策略(Flow Matching Policy)。图像观测 O_{img}
分块后经 ViT 处理,并由 Q-Former 压缩为 token c_{img}
,通过交叉注意力条件化 Flow Transformer(FT)。本体感知由 MLP 编码为 c_{proprio}
并加入 FT 输入序列。时间步 t
嵌入后通过 AdaLN 作用于 FT。FT 基于带噪动作潜变量 z_{t}
、c_{img}
、c_{proprio}
与 t
预测流匹配速度 v_{θ}
,最终经欧拉积分生成动作。
中央凹化分块(Foveated Tokenization)
thread_tokenization.mp4
(左)输入图像采用标准均匀分块;(中/右)采用中央凹化分块:在注视点附近分配高分辨率补丁,外围使用低分辨率补丁。该方法将 token 数量从 324(均匀) 减少到 20(中央凹化),在保留关键细节的同时,显著降低计算成本。
具有中央凹化视觉的自主执行(Autonomous Rollout with Foveated Vision)
Cube Transfer :https://ian-chuang.github.io/gaze-av-aloha/static/videos/cube_fov.mp4
Peg Insertion :https://ian-chuang.github.io/gaze-av-aloha/static/videos/peg_fov.mp4 Slot Insertion :https://ian-chuang.github.io/gaze-av-aloha/static/videos/slot_fov.mp4 Hook Package :https://ian-chuang.github.io/gaze-av-aloha/static/videos/hook_fov.mp4 Pour Test Tube :https://ian-chuang.github.io/gaze-av-aloha/static/videos/pour_fov.mp4 Thread Needle :https://ian-chuang.github.io/gaze-av-aloha/static/videos/thread_fov.mp4 Ball :https://ian-chuang.github.io/gaze-av-aloha/static/videos/ball_fov.mp4 Toothbrush :https://ian-chuang.github.io/gaze-av-aloha/static/videos/toothbrush_fov.mp4
BibTeX
@misc{chuang2025lookfocusactefficient,
title={Look, Focus, Act: Efficient and Robust Robot Learning via Human Gaze and Foveated Vision Transformers},
author={Ian Chuang and Andrew Lee and Dechen Gao and Jinyu Zou and Iman Soltani},
year={2025},
eprint={2507.15833},
archivePrefix={arXiv},
primaryClass={cs.RO},
url={https://arxiv.org/abs/2507.15833},
}
3D视觉1V1论文辅导来啦!
3D视觉学习圈子
星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!