11个数据集全拿SOTA!机器人终于既会“看”又会“动”了

量子位 2026-06-05 08:05
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

想象一下,你给机器人看了一张照片,然后说了一句“把微波炉打开”。

结果它不仅认出了该摸的位置,还规划了出完整的三维运动轨迹,关键是真的把门拉开了,而且成功率高达90%。

这件事,一个叫AFUN的新模型做到了,同时还在11个数据集上拿到了SOTA。

11个数据集全拿SOTA!机器人终于既会“看”又会“动”了图1

这种看出东西能干什么、该怎么动的能力,学术上叫可供性感知。

这个能力,机器人学了很多年,始终差着一口气,不是不会看,就是不会动。

总之,这两件事几乎没被同一个模型同时解决过,直到这篇AFUN,补上了这个缺口。

机器人为什么能“看”不能“动”

过去做可供性的人,基本都在解决同一个问题,那就是机器人“该摸哪里”。

这种模式下,只要输出一个分割掩码,或者标几个关键点,研究就算完了。

至于机器人接触之后物体该往哪走、用多大力、沿什么方向运动,几乎没有方法去回答。

但在实际任务中,机器人要完成一个操作任务,光知道“抓把手”是不够的,它还需要知道抓住之后该往哪个方向拉、转多少角度、走多长距离。

没有这些信息,机械臂只能停在那里。

于是另一批人转去研究运动预测,但很快碰到新的墙。

大多数方法只能在2D图像平面上给出轨迹,机器人真正执行的时候需要三维信息,平面上的箭头没法告诉它该往前推还是往上抬。

还有一些方法干脆要求人先指出目标在哪再预测怎么动,绕开了定位问题,导致机器人没法真正自主部署。

11个数据集全拿SOTA!机器人终于既会“看”又会“动”了图2

两条路都受限于数据。

现有的可供性数据集普遍规模偏小、覆盖场景有限,模型能见到的物体种类和交互类型都很窄。

结果就是,在实验室里调出来的模型效果还算不错,但换一个没见过的物体、换一个新场景,其性能就会大幅下滑。

这也是为什么现有方法很难走出实验室实现真正落地的一个原因。

还有一个更根本的问题,一直没有被正面解决——同一个物体在不同任务下需要交互的区域完全不同。

让机器人使用锤子,它该抓柄;让它用锤子压住纸,它该抓头。

这个问题已经超越了识别,需要模型去理解任务意图,但静态的分割模型,从设计上就没有能力做这种区分。

AFUN怎么做到的

AFUN的核心思路是把三个已经训练好的大模型拼在一起,各司其职。

Qwen3-VL负责理解语言指令,SAM3负责图像分割,Sonata负责处理深度图转成的三维点云。

三个模型在训练过程中全程冻结,AFUN只在它们之间新加了3200万个参数,并把它们串联起来。

11个数据集全拿SOTA!机器人终于既会“看”又会“动”了图3

串联的方式叫MetaQuery。

简单说,就是在输入的文字指令里插入一组可学习的特殊token,让它们跟着指令一起过Qwen3-VL的transformer,提取出来的隐层状态,再分别送给分割模型和运动预测模块。

分割和运动两个任务则共享同一次VLM的推理,一次前向传播同时出两个结果。

运动的表示方式也是AFUN的一个设计选择。

它用贝塞尔样条曲线来描述物体接触后的运动轨迹,起点固定在分割掩码的深度质心上,模型只需要预测后续的控制点。

曲线上均匀采样之后,就得到了机器人可以直接执行的一串三维路径点。

训练分三个阶段进行。

这样的安排是为了防止随机初始化的token在早期干扰分割质量,让两个任务的学习都能稳定进行。

数据方面,AFUN从10个公开数据源里聚合了32万条原始视频,跨越机器人遥操作、人类第一视角、仿真环境和真实场景扫描四类来源。

原始片段经过切分之后有124万个动作区间,再经过自动化流水线标注和人工质检,最终留下约6万条训练样本。

11个数据集全拿SOTA!机器人终于既会“看”又会“动”了图4

这套流水线里还有一个容易被忽视的设计纠正。

过去很多数据集用机械臂或手部的运动轨迹作为监督信号,但这段轨迹里混入了大量接触之前的无关运动。

AFUN将其改为直接追踪物体本身,因为接触发生之后物体往哪走,才是真正有意义的操作信息。

11个数据集全拿SOTA!机器人终于既会“看”又会“动”了图5

11个测试集SOTA

AFUN在11个测试集上拿到了SOTA,覆盖分割、接触点预测、3D运动预测三个方向。

在分割任务上,研究团队用8个测试集做了验证,覆盖4个不同的基准。AFUN在每个测试集上都拿到了SOTA,平均gIoU和cIoU比最强基线分别高出23.9和26.3个点。

接触点任务重,AFUN取预测掩码的最远内点作为接触点,在不同测试集上命中率比最佳基线高出12.7%到61.3%不等。

3D运动预测方面,在对比条件对AFUN并不算有利的条件下,对比模型General Flow的ADE和FDE在全部三个测试集上依然不及AFUN。

最后是真实机器人部署。

AFUN在Franka机械臂上测了四项任务,拿起螺丝刀、取下锅盖、拉开抽屉、打开微波炉,没有针对这台机械臂做任何微调,平均成功率90%。

作者简介

本文的两位共同一作分别是Zhaoning Wang和Yi Zhong。

Zhaoning Wang是密歇根大学博士生,师从Jun Gao,研究方向涵盖3D神经表示、生成模型与具身AI。

此前他在Hillbot和UC圣地亚哥苏昊实验室有过研究经历,曾以一作或共同一作身份在CVPR、ECCV、NeurIPS等顶会发表论文。

Yi Zhong同样就读于密歇根大学。

11个数据集全拿SOTA!机器人终于既会“看”又会“动”了图6

其余作者包括Jiawei Fu、UC圣地亚哥机器人研究所所长Henrik I. Christensen,以及密歇根大学助理教授、NVIDIA研究科学家Jun Gao。

论文地址:
https://arxiv.org/abs/2606.02551


一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


专属AI产品从业者的实名社群,只聊AI产品最落地的真问题 11个数据集全拿SOTA!机器人终于既会“看”又会“动”了图7 扫码添加小助手,发送「姓名+公司+职位」申请入群~
11个数据集全拿SOTA!机器人终于既会“看”又会“动”了图8
进群后,你将直接获得:
 👉 最新最专业的AI产品信息及分析 🔍 
 👉 不定期发放的热门产品内测码 🔥
 👉 内部专属内容与专业讨论 👂


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
谁先跑进10万个家庭,谁就赢了机器人第一局
6月1日,英伟达牵手宇树:定义人形机器人“新范式”
超越Figure AI!全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住
车企入局机器人领域,能否复刻“汽车神话”?
这家国家专精特新小巨人,万台智能机器人产业化基地封顶!
大晓机器人开源中国家庭全屋3D数据集:30万真实户型、5000个可交互场景,仿真到现实迁移周期大幅缩短
比亚迪人形机器人要来了,将在4S门店销售
11个数据集全拿SOTA!机器人终于既会“看”又会“动”了
一个GPT Plus会员的钱,够机器人跑一个月世界模型了
舍弗勒与千寻智能达成战略合作,推动人形机器人在工业场景落地
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号