北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%

3D视觉工坊 2025-10-10 07:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:我爱计算机视觉

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图1

最近,具身智能领域又迎来一个非常有意思的工作。我们知道,让机器人像人一样在复杂的环境里持续跟住一个移动目标,其实非常困难,尤其是在目标被遮挡或者周围有长得很像的“路人甲”干扰时,机器人一不留神可能就“跟丢了”。

为了解决这个难题,来自北京大学、中国科学技术大学、北京航空航天大学等机构的研究者们,联合提出了一种名为 TrackVLA++ 的新模型。它给机器人装上了一个“会思考的大脑”和一个“好记性”,让跟踪任务变得既准又稳。

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图2
  • 论文标题: TrackVLA++: Unleashing Reasoning and Memory Capabilities in VLA Models for Embodied Visual Tracking
  • 作者: Jiahang Liu, Yunpeng Qi, Jiazhao Zhang, Minghan Li, Shaoan Wang, Kui Wu, Hanjing Ye, Hong Zhang, Zhibo Chen, Fangwei Zhong, Zhizheng Zhang, He Wang
  • 机构: 北京大学, Galbot, 中国科学技术大学, 北京智源人工智能研究院, 北京航空航天大学, 南方科技大学, 北京师范大学
  • 论文地址: https://arxiv.org/abs/2510.07134
  • 项目主页: https://pku-epic.github.io/TrackVLA-plus-plus-Web/
  • 代码仓库: https://github.com/pku-epic/TrackVLA-plus-plus-Web

“跟不住”的痛点与 TrackVLA++ 的诞生

想象一下,让一个机器人做你的贴身小跟班,无论是在拥挤的商场还是在复杂的办公楼里,它都能紧紧跟着你。这就是“具身视觉跟踪”(Embodied Visual Tracking, EVT)任务。

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图3

以前的方法虽然在简单场景下还行,但一遇到目标长时间被挡住,或者旁边出现穿着相似衣服的人,模型就很容易“脸盲”,从而跟丢目标。根本原因在于,这些模型缺少两个关键能力:空间推理长时记忆。它们无法像人一样去思考“目标大概会往哪个方向走”,也记不住“我要找的人长什么样”。

TrackVLA++ 正是为了解决这一痛点而生。它是一个视觉-语言-动作(Vision-Language-Action, VLA)模型,通过引入两大创新模块,让机器人跟踪能力实现了质的飞跃。

两大“法宝”:会推理、有记忆

TrackVLA++ 的强大之处,主要来自两个精心设计的模块:Polar-CoT 推理机制和目标识别记忆 (TIM) 模块。

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图4

Polar-CoT:像人一样“思考”目标方位

这个名字听起来有点复杂,我们拆开看。CoT 指的是“思维链”(Chain-of-Thought),是一种让大模型模拟人类思考过程,一步步进行推理的技术。而 Polar 指的是“极坐标”。

所以,Polar-CoT 的作用就是,不再像以前的方法那样傻傻地去预测目标在图像中的矩形框位置,而是在机器人的自我中心视角下,通过“思考”来推断出目标的相对方位(角度和距离)。这个方位信息被编码成一个非常紧凑的“极坐标 token”,直接告诉模型“目标在你左前方3米处”。

这种方式非常高效,而且天然支持多摄像头输入,避免了不同视角下预测框可能产生的冲突和冗余,让推理变得又快又准。

目标识别记忆 (TIM):只记“对”的,不记“错”的

有了可靠的方位,如何保证在目标消失后还能认出它呢?这就需要 目标识别记忆 (Target Identification Memory, TIM) 模块了。

TIM 模块像一个聪明的守门员,它采用了一种“门控更新”策略。只有当 Polar-CoT 模块非常自信地(高置信度)预测到目标时,TIM 才会用最新的视觉特征来更新自己对目标的“记忆”。如果 Polar-CoT 表示“目标不见了”或“我不确定”,TIM 就会“关上大门”,保持之前的记忆不变,防止被环境中的干扰信息“污染”。

这种机制确保了即使目标被长时间遮挡,机器人心中对目标的样貌记忆依然是清晰、连贯的,一旦目标重新出现,就能立刻认出来。

实验效果:不仅刷新SOTA,还能落地真实世界

研究者们在多个公开基准测试(如 EVT-Bench 和 Gym-UnrealCV)上对 TrackVLA++ 进行了全面评估。

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图5

结果非常亮眼。在最具挑战性的 EVT-Bench DT(有干扰物)测试中,TrackVLA++ 的成功率比之前最好的方法提升了高达12个百分点。无论是在单视角还是多视角设置下,都稳居第一。

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图6

更重要的是,TrackVLA++ 展现了强大的零样本泛化能力。这意味着它在没有经过专门训练的全新场景中,依然能表现出色。

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图7

研究团队还在真实的四足机器人上部署了 TrackVLA++,在充满障碍、路径曲折和有干扰者的真实世界场景中进行了测试。

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图8

结果显示,TrackVLA++ 的鲁棒性远超前代模型,成功率提升了7%到17%不等,证明了其在实际应用中的巨大潜力。

消融实验也证明了 Polar-CoT 和 TIM 两个模块的有效性和互补性。去掉任何一个,模型性能都会明显下降。

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图9

总结

CV君认为,TrackVLA++ 通过引入类似人类的“推理”和“记忆”机制,为解决具身智能中的长时序、复杂交互问题提供了一个非常优雅且有效的范式。这种设计思路,也许能启发更多关于如何让AI“更懂思考”的研究。

你觉得这种带“思考”的跟踪方法,未来还能用在哪些好玩的机器人应用上?欢迎在评论区聊聊!

本文仅做学术分享,如有侵权,请联系删文。

3D视觉硬件,官网:www.3dcver.com

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图10

3D视觉学习圈子

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图11

3D视觉全栈学习课程:www.3dcver.com

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图12

3D视觉交流群成立啦,微信:cv3d001

北大开源TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%图13

添加微信:cv3d001,备注:方向+单位,邀你入3D视觉交流群!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
功率 开源 机器人
more
DeepSeek-V3.2两款新模型开源,让开源模型重回第一梯队
全球开源大模型杭州霸榜被终结,上海Minimax M2发布即爆单,百万Tokens仅需8元人民币
Adam的稳+Muon的快?华为诺亚开源ROOT破解大模型训练「既要又要」的两难困境
SCADA开源可行吗?工控大厂的试验田,或将造福百万人
吴恩达关注的Ling-1T背后,蚂蚁Ling 2.0技术报告解密万亿模型开源配方
ICLR'25 开源 | 推翻传统NBV,超复杂室内环境实时探索重建大突破!
DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
开源又赢闭源!商汤8B模型空间智能碾压GPT-5,AI看懂世界又进了一步
Kimi又开源了!KV缓存暴砍75%,解码速度飙6倍
开源新王!首次干翻 GPT-5,实测 Kimi K2 Thinking,中国 AI 杀疯了
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号