11个数据集全拿SOTA！机器人终于既会“看”又会“动”了

克雷西发自凹非寺
量子位 | 公众号 QbitAI

想象一下，你给机器人看了一张照片，然后说了一句“把微波炉打开”。

结果它不仅认出了该摸的位置，还规划了出完整的三维运动轨迹，关键是真的把门拉开了，而且成功率高达90%。

这件事，一个叫AFUN的新模型做到了，同时还在11个数据集上拿到了SOTA。

这种看出东西能干什么、该怎么动的能力，学术上叫可供性感知。

这个能力，机器人学了很多年，始终差着一口气，不是不会看，就是不会动。

总之，这两件事几乎没被同一个模型同时解决过，直到这篇AFUN，补上了这个缺口。

机器人为什么能“看”不能“动”

过去做可供性的人，基本都在解决同一个问题，那就是机器人“该摸哪里”。

这种模式下，只要输出一个分割掩码，或者标几个关键点，研究就算完了。

至于机器人接触之后物体该往哪走、用多大力、沿什么方向运动，几乎没有方法去回答。

但在实际任务中，机器人要完成一个操作任务，光知道“抓把手”是不够的，它还需要知道抓住之后该往哪个方向拉、转多少角度、走多长距离。

没有这些信息，机械臂只能停在那里。

于是另一批人转去研究运动预测，但很快碰到新的墙。

大多数方法只能在2D图像平面上给出轨迹，机器人真正执行的时候需要三维信息，平面上的箭头没法告诉它该往前推还是往上抬。

还有一些方法干脆要求人先指出目标在哪再预测怎么动，绕开了定位问题，导致机器人没法真正自主部署。

两条路都受限于数据。

现有的可供性数据集普遍规模偏小、覆盖场景有限，模型能见到的物体种类和交互类型都很窄。

结果就是，在实验室里调出来的模型效果还算不错，但换一个没见过的物体、换一个新场景，其性能就会大幅下滑。

这也是为什么现有方法很难走出实验室实现真正落地的一个原因。

还有一个更根本的问题，一直没有被正面解决——同一个物体在不同任务下需要交互的区域完全不同。

让机器人使用锤子，它该抓柄；让它用锤子压住纸，它该抓头。

这个问题已经超越了识别，需要模型去理解任务意图，但静态的分割模型，从设计上就没有能力做这种区分。

AFUN怎么做到的

AFUN的核心思路是把三个已经训练好的大模型拼在一起，各司其职。

Qwen3-VL负责理解语言指令，SAM3负责图像分割，Sonata负责处理深度图转成的三维点云。

三个模型在训练过程中全程冻结，AFUN只在它们之间新加了3200万个参数，并把它们串联起来。

串联的方式叫MetaQuery。

简单说，就是在输入的文字指令里插入一组可学习的特殊token，让它们跟着指令一起过Qwen3-VL的transformer，提取出来的隐层状态，再分别送给分割模型和运动预测模块。

分割和运动两个任务则共享同一次VLM的推理，一次前向传播同时出两个结果。

运动的表示方式也是AFUN的一个设计选择。

它用贝塞尔样条曲线来描述物体接触后的运动轨迹，起点固定在分割掩码的深度质心上，模型只需要预测后续的控制点。

曲线上均匀采样之后，就得到了机器人可以直接执行的一串三维路径点。

训练分三个阶段进行。

第一阶段先在Visual Genome数据集上对齐MetaQuery与SAM3的特征空间，给后续训练一个稳定的初始化；
第二阶段在四个可供性数据集上专门训练分割；
第三阶段把运动预测加进来联合训练。

这样的安排是为了防止随机初始化的token在早期干扰分割质量，让两个任务的学习都能稳定进行。

数据方面，AFUN从10个公开数据源里聚合了32万条原始视频，跨越机器人遥操作、人类第一视角、仿真环境和真实场景扫描四类来源。

原始片段经过切分之后有124万个动作区间，再经过自动化流水线标注和人工质检，最终留下约6万条训练样本。

这套流水线里还有一个容易被忽视的设计纠正。

过去很多数据集用机械臂或手部的运动轨迹作为监督信号，但这段轨迹里混入了大量接触之前的无关运动。

AFUN将其改为直接追踪物体本身，因为接触发生之后物体往哪走，才是真正有意义的操作信息。

11个测试集SOTA

AFUN在11个测试集上拿到了SOTA，覆盖分割、接触点预测、3D运动预测三个方向。

在分割任务上，研究团队用8个测试集做了验证，覆盖4个不同的基准。AFUN在每个测试集上都拿到了SOTA，平均gIoU和cIoU比最强基线分别高出23.9和26.3个点。

接触点任务重，AFUN取预测掩码的最远内点作为接触点，在不同测试集上命中率比最佳基线高出12.7%到61.3%不等。

3D运动预测方面，在对比条件对AFUN并不算有利的条件下，对比模型General Flow的ADE和FDE在全部三个测试集上依然不及AFUN。

最后是真实机器人部署。

AFUN在Franka机械臂上测了四项任务，拿起螺丝刀、取下锅盖、拉开抽屉、打开微波炉，没有针对这台机械臂做任何微调，平均成功率90%。

作者简介

本文的两位共同一作分别是Zhaoning Wang和Yi Zhong。

Zhaoning Wang是密歇根大学博士生，师从Jun Gao，研究方向涵盖3D神经表示、生成模型与具身AI。

此前他在Hillbot和UC圣地亚哥苏昊实验室有过研究经历，曾以一作或共同一作身份在CVPR、ECCV、NeurIPS等顶会发表论文。

Yi Zhong同样就读于密歇根大学。

其余作者包括Jiawei Fu、UC圣地亚哥机器人研究所所长Henrik I. Christensen，以及密歇根大学助理教授、NVIDIA研究科学家Jun Gao。

论文地址：
https://arxiv.org/abs/2606.02551

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属AI产品从业者的实名社群，只聊AI产品最落地的真问题 11个数据集全拿SOTA！机器人终于既会“看”又会“动”了图7

扫码添加小助手，发送「姓名+公司+职位」申请入群～

进群后，你将直接获得：

👉 最新最专业的AI产品信息及分析 🔍

👉 不定期发放的热门产品内测码 🔥

👉 内部专属内容与专业讨论 👂

🌟 点亮星标 🌟

科技前沿进展每日见

克雷西 发自 凹非寺量子位 | 公众号 QbitAI

机器人为什么能“看”不能“动”

AFUN怎么做到的

11个测试集SOTA

作者简介

克雷西发自凹非寺
量子位 | 公众号 QbitAI