机器人圈终于有了“VLA 版 Papers with Code”?我最近发现一个超省时间的 SOTA 榜单网站

Xbot具身知识库 2026-01-13 17:32

你有没有经历过这种崩溃时刻:

为了做一轮 VLA(Vision-Language-Action)调研,你打开 20 篇论文、50 个项目页、再加 3 个“某某整理表”,最后还是回答不了一句最简单的问题——

“现在到底谁是 SOTA?趋势是变快了还是变慢了?哪些工作开源、能复现?”

更扎心的是:你明明做的是机器人研究,结果大量时间花在了手动对齐表格——指标口径、日期、开源状态、链接……像在做数据标注。

我最近刷到一个网站,第一反应是:终于有人把这件“每个人都在重复做”的体力活系统化了。

它叫:VLA SOTA Leaderboard(VLA 评测与发展趋势榜单平台)——一个把近两三年 VLA 工作按 benchmark 统一整理、并配趋势图的榜单站。

先把地址放这儿(建议收藏):

Plain Text
https://sota.evomind-tech.com/

1)为什么 VLA 圈特别需要一个“统一榜单”?

VLA 的评测比 NLP/CV 更容易“看起来一样、实际不一样”。主要有三类坑:

机器人圈终于有了“VLA 版 Papers with Code”?我最近发现一个超省时间的 SOTA 榜单网站图2

坑 1:指标口径不透明

同样是成功率,可能评测协议略不同;同样是一个 benchmark,可能 setting 不同。这个网站在 Methodology 里也明确写了:不同论文可能使用略有差异的评测协议,跨 benchmark 结果不能直接比较。

坑 2:开源信息太分散

机器人领域最现实的问题往往是:你能不能复现?能不能改?能不能迁移?

站点把模型分为 “Open-Source Models” 与 “Other Models”,并说明:找不到仓库或 “Coming Soon” 的默认隐藏,但可以用 “Include All Models” 开关显示。

坑 3:你只记住了冠军,但没看见趋势

只盯 Top-1 很容易被“榜首效应”带跑偏;真正有价值的是:

过去两三年,提升发生在什么时候?是缓慢爬坡还是台阶式跃迁?

这个项目把“时间-性能散点图”作为核心功能之一,帮助你一眼看趋势。

2)这个网站到底做了什么?一句话:把 VLA 的“碎片信息”拼成一张可用地图

它主页给出的定位很清楚:追踪主流机器人操作基准上的 VLA SOTA 表现。

机器人圈终于有了“VLA 版 Papers with Code”?我最近发现一个超省时间的 SOTA 榜单网站图3

目前支持 4 个常用 benchmark(对做 manipulation 的人很熟):

  • LIBERO:130 个语言条件操作任务,主指标 Average Success Rate
  • LIBERO Plus:强调鲁棒性扰动维度(如相机、光照、背景等),主指标 Average Success Rate
  • Meta-World:50 个操作任务,主指标 Average Success Rate
  • CALVIN:长程语言条件操作(long-horizon),网站在 Methodology 中标注了 ABC→D setting 的主指标口径

另外它支持中英双语界面(导航栏就有“中文”入口)。

3)我觉得它最“值钱”的 3 个点,也是最适合写进你的综述/调研的

① 开源优先:先让你找到“能跑的”

Methodology 明确:开源模型默认展示、标记 “Open Source” badge;不开源或仓库找不到的默认隐藏,可用开关显示。

这对工程团队/复现党太重要了——开源 Top-5 的价值,经常大于不开源 Top-1。

② 透明口径:至少告诉你“我怎么排的”

它把数据来源、排序规则、限制条件都写在 Methodology:

数据来自论文与官方仓库,不重新跑实验;按各基准主指标排序;并提示跨 benchmark 不可直接比较。

这种“把规则写出来”的网站,可信度会高很多。

③ 趋势图:10 秒看懂“这条路还值不值得做”

项目 README 里写了“Progress Visualization(散点图展示发展趋势)”。

对立项/选题来说,这比“谁第一”更重要:

你要的是方向判断,不是围观冠军。

4)最省时间的用法:10 分钟做完一轮 VLA 调研

给你一个“能直接照抄”的流程:

Step 1:选 benchmark
你做桌面短程 → 看 LIBERO / Meta-World
你做鲁棒性泛化 → 看 LIBERO Plus
你做长程多技能 → 看 CALVIN

Step 2:先只看开源模型
别急着看所有条目,先把“开源可复现”那部分读完(节省 80% 时间)。

Step 3:打开 5 个 Tab
对 Top-5:论文链接 + 代码仓库(如果有)各开一页,快速建立“路线图”。

Step 4:最后再看趋势图
确认这个 benchmark 是否还在快速上升,或者已经接近平台期(决定你该做结构、做数据,还是做系统工程)。

5)读榜单避坑:别被“一行数字”忽悠了

最后送你 3 条“看榜单保命原则”(非常适合转发给组里新人):

1、不要跨 benchmark 比大小
同样 90% 在不同基准上含义完全不同。网站也明确写了跨基准比较应避免。

2、先问“评测 setting 是什么”
尤其像 CALVIN 这种长程基准,setting/指标口径很关键。建议以网站 Methodology 的口径说明 + 原论文为准。

3、优先看开源与可复现
机器人最终要落地,“能跑通”的价值永远更大。网站也把开源作为默认展示逻辑。

机器人圈一直缺一个“把 SOTA 变清楚”的公共工具。
这个网站做的事情不花哨,但极其关键:让你少做表格,多做研究。

地址再贴一次(建议收藏 + 转发给组里):

Plain Text
https://sota.evomind-tech.com/


-END-

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
人形机器人公司“组团”上春晚!形式揭秘
Figure发布Helix 02模型,人形机器人实现全身自主控制新突破
200亿资本倾斜,特斯拉能否破局智能出行与机器人新赛道?
销量暴增86%、海外出货激增176%!法奥协作机器人年产销均破万台
马斯克冲刺机器人量产,2026年资本支出将“非常大”
宇树G1人形机器人创全球极寒自主行走纪录 绘就冬奥雪地图案
多家非营利组织联名致信白宫,要求立即暂停联邦机构部署马斯克旗下Grok聊天机器人
小鹏机器人商场走猫步摔倒被嘲笑!小鹏总裁回应
上海理工大学机器智能研究院执行院长李清都:人形机器人“正式上岗”先得过安全与ROI两道关
Physical Intelligence:押注通用机器人智能的“纯粹”实验室
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号