你有没有经历过这种崩溃时刻:
为了做一轮 VLA(Vision-Language-Action)调研,你打开 20 篇论文、50 个项目页、再加 3 个“某某整理表”,最后还是回答不了一句最简单的问题——
“现在到底谁是 SOTA?趋势是变快了还是变慢了?哪些工作开源、能复现?”
更扎心的是:你明明做的是机器人研究,结果大量时间花在了手动对齐表格——指标口径、日期、开源状态、链接……像在做数据标注。
我最近刷到一个网站,第一反应是:终于有人把这件“每个人都在重复做”的体力活系统化了。
它叫:VLA SOTA Leaderboard(VLA 评测与发展趋势榜单平台)——一个把近两三年 VLA 工作按 benchmark 统一整理、并配趋势图的榜单站。
|
先把地址放这儿(建议收藏): |
Plain Text
https://sota.evomind-tech.com/
1)为什么 VLA 圈特别需要一个“统一榜单”?
VLA 的评测比 NLP/CV 更容易“看起来一样、实际不一样”。主要有三类坑:

坑 1:指标口径不透明
同样是成功率,可能评测协议略不同;同样是一个 benchmark,可能 setting 不同。这个网站在 Methodology 里也明确写了:不同论文可能使用略有差异的评测协议,跨 benchmark 结果不能直接比较。
坑 2:开源信息太分散
机器人领域最现实的问题往往是:你能不能复现?能不能改?能不能迁移?
站点把模型分为 “Open-Source Models” 与 “Other Models”,并说明:找不到仓库或 “Coming Soon” 的默认隐藏,但可以用 “Include All Models” 开关显示。
坑 3:你只记住了冠军,但没看见趋势
只盯 Top-1 很容易被“榜首效应”带跑偏;真正有价值的是:
过去两三年,提升发生在什么时候?是缓慢爬坡还是台阶式跃迁?
这个项目把“时间-性能散点图”作为核心功能之一,帮助你一眼看趋势。
2)这个网站到底做了什么?一句话:把 VLA 的“碎片信息”拼成一张可用地图
它主页给出的定位很清楚:追踪主流机器人操作基准上的 VLA SOTA 表现。

目前支持 4 个常用 benchmark(对做 manipulation 的人很熟):
-
LIBERO:130 个语言条件操作任务,主指标 Average Success Rate -
LIBERO Plus:强调鲁棒性扰动维度(如相机、光照、背景等),主指标 Average Success Rate -
Meta-World:50 个操作任务,主指标 Average Success Rate -
CALVIN:长程语言条件操作(long-horizon),网站在 Methodology 中标注了 ABC→D setting 的主指标口径
另外它支持中英双语界面(导航栏就有“中文”入口)。
3)我觉得它最“值钱”的 3 个点,也是最适合写进你的综述/调研的
① 开源优先:先让你找到“能跑的”
Methodology 明确:开源模型默认展示、标记 “Open Source” badge;不开源或仓库找不到的默认隐藏,可用开关显示。
这对工程团队/复现党太重要了——开源 Top-5 的价值,经常大于不开源 Top-1。
② 透明口径:至少告诉你“我怎么排的”
它把数据来源、排序规则、限制条件都写在 Methodology:
数据来自论文与官方仓库,不重新跑实验;按各基准主指标排序;并提示跨 benchmark 不可直接比较。
这种“把规则写出来”的网站,可信度会高很多。
③ 趋势图:10 秒看懂“这条路还值不值得做”
项目 README 里写了“Progress Visualization(散点图展示发展趋势)”。
对立项/选题来说,这比“谁第一”更重要:
你要的是方向判断,不是围观冠军。
4)最省时间的用法:10 分钟做完一轮 VLA 调研
给你一个“能直接照抄”的流程:
Step 1:选 benchmark
你做桌面短程 → 看 LIBERO / Meta-World
你做鲁棒性泛化 → 看 LIBERO Plus
你做长程多技能 → 看 CALVIN
Step 2:先只看开源模型
别急着看所有条目,先把“开源可复现”那部分读完(节省 80% 时间)。
Step 3:打开 5 个 Tab
对 Top-5:论文链接 + 代码仓库(如果有)各开一页,快速建立“路线图”。
Step 4:最后再看趋势图
确认这个 benchmark 是否还在快速上升,或者已经接近平台期(决定你该做结构、做数据,还是做系统工程)。
5)读榜单避坑:别被“一行数字”忽悠了
最后送你 3 条“看榜单保命原则”(非常适合转发给组里新人):
1、不要跨 benchmark 比大小
同样 90% 在不同基准上含义完全不同。网站也明确写了跨基准比较应避免。
2、先问“评测 setting 是什么”
尤其像 CALVIN 这种长程基准,setting/指标口径很关键。建议以网站 Methodology 的口径说明 + 原论文为准。
3、优先看开源与可复现
机器人最终要落地,“能跑通”的价值永远更大。网站也把开源作为默认展示逻辑。
机器人圈一直缺一个“把 SOTA 变清楚”的公共工具。
这个网站做的事情不花哨,但极其关键:让你少做表格,多做研究。
地址再贴一次(建议收藏 + 转发给组里):
Plain Text
https://sota.evomind-tech.com/
-END-