点击下方卡片,关注【Xbotics具身智能实验室】公众号
更多具身干货,欢迎加入(戳我)
👉具身智能学习资料汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide
👉具身智能求职/实习信息汇总:https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job
你想要的这里都有~~
Pipette 把训练场塞进了生物实验室,Embodied-BenchClaw 让 Agent 自己出题造 Benchmark,SO-101 拿几百美金的机械臂做 VLA 真机测试。三件事看起来各干各的,实际上都在回答同一个问题:模型之外,剩下的活儿谁来干?
Pipette:机器人终于开始啃硬骨头了
这不是又一个仿真 demo,是专门给 wet-lab robotics 做的仿真平台、Benchmark 和数据增强工具。训练场从桌面摆积木、厨房收碗筷,推进到了生物医学实验室。
生物实验室其实特别适合机器人进场。大量重复、精细、标准化的动作——移液、转样、摆弄培养皿、试管操作、开关设备——人干久了会烦,机器人却不在意。流程清晰、价值高、安全和可复现性要求苛刻,正好对上机器人的强项。
但真实数据采集贵得离谱。总不能随便让机器人在真实实验室里试错吧?试剂、设备、耗材都是钱,操作失误可能污染样本、损坏器材,甚至整批实验直接报废。机器人要进这个场子,不能光靠真实数据硬怼,得有个安全、可控、能反复折腾的训练环境。
Pipette 做了这件事。
它提供了一套可编辑的实验室资产——试管、培养皿、实验器具——并搭了 11 个 wet-lab 任务。不止搭静态场景,还整了一套从少量人类示范到大规模训练数据的仿真增强流程。

人类先采一点真实示范,系统在仿真里回放,再往里加光照、相机、速度、动作等各种扰动,最后靠自动任务成功检测把无效轨迹筛掉。有限的人类示范,就这么被扩成了更大规模的训练数据。
以前聊机器人数据,老是个怪圈。没数据训不动模型,采数据又太贵,数据少了泛化差,泛化差部署就翻车。Pipette 走的是中间路线。真实采集太贵,纯仿真又信不过,那就拿真实示范当种子,仿真增强来扩覆盖。
这对垂直行业的机器人启发不小。具身智能最先落地的场景,大概率不是开放家庭,而是流程明确、价值密度高、任务能标准化的行业场景。湿实验室就是典型。家里乱糟糟的,湿实验室虽然也不简单,但比桌面抓取更贴近真实产业需求。
Pipette 其实透露了一个趋势:具身智能 Infra 正在从"通用玩具任务"往"垂直行业训练场"转。
Embodied-BenchClaw:以后 Benchmark 可能也得自己长出来
Pipette 解决的是"特定行业训练场怎么搭",Embodied-BenchClaw 想的是另一件事:Benchmark 能不能自动构建?
现在的具身 Benchmark 不少,但也乱。每个 Benchmark 都有自己的任务定义、数据格式、评测脚本、指标体系。做一个新 Benchmark 往往要耗大量人工。得定义任务、收集数据、清洗、生成样本,还得写评测脚本、出报告。等 Benchmark 做出来,模型能力可能又往前窜了一截,原来的任务很快被刷穿。
Benchmark 建得慢,模型进步快,这个错位一直存在。
Embodied-BenchClaw 的思路,是把 Benchmark 构建变成多智能体协作的流程。输入不是固定数据集,是用户给的评测意图。比如你想测模型的室内空间推理、机器人操作、四足导航,系统就围绕这个意图自动生成一整套 Benchmark package。

整个过程被拆成几个阶段:意图蓝图设计、数据收集、结构化与清洗、Benchmark 合成、评测报告生成。背后由规划、构建、评估三类 Agent 分工干活。
以前手工出题,题目少、成本高、更新慢。Embodied-BenchClaw 的想法是,让系统自己根据评测目标生成题目、整理数据、构建任务,跑完评测出报告。
自动生成不等于人就可以撒手。恰恰相反,自动生成之后更需要把质量关。一堆自动生成的题目里,很可能混进错误、重复或者根本执行不了的任务。所以 Embodied-BenchClaw 里一个很重要的设计是技能库和过程质量控制——Benchmark 构建过程能拆开组合、出了问题能验能修,不是一次性吐出一堆没法维护的数据。
这个方向值得多看两眼。
未来的具身智能模型会越来越多,能力越来越复杂。每次都靠人工慢慢造 Benchmark,根本追不上模型迭代的速度。更现实的方式,是让 Benchmark 本身也变成动态系统——持续更新,不断诊断,随时暴露模型的短板。
过去靠 Benchmark 考模型,未来可能得靠 Agent 来造 Benchmark。
SO-101 VLA Benchmark:低成本真机评测开始上桌了
第三个项目是 Benchmarking Vision-Language-Action Models on SO-101。
最吸引人的地方,不是提了个新模型,是把 VLA 评测放到了一个低成本的真实机械臂平台上。
以前很多 VLA 评测,在仿真里跑,或者依赖昂贵的机器人平台。仿真便宜、可复现,但跟真实世界有 gap;贵平台更接近部署条件,门槛太高,社区根本复现不了。很多团队看了 VLA 的论文,却很难在自己手里的设备上系统测一把。
SO-101 这种低成本机械臂,正好填了这个空。它的价值不是性能最强,是便宜、开放、适合教学和社区复现。一个 VLA benchmark 能在这种平台上稳定跑起来,更多实验室、社区团队、学生、开发者都能参与真实机器人评测。

真正推动一个领域普及的,往往不是最贵的设备,而是门槛最低的标准平台。计算机视觉早期靠标准数据集,深度学习普及靠消费级 GPU,机器人 VLA 现在缺的是个大家都够得着的真实平台。
这个 Benchmark 还有个不错的设计:不只看成功率,还强调失败与恢复分析。
机器人任务不是二分类问题。一次失败,原因五花八门。语言理解错了、视觉定位偏了、执行时手抖、夹爪控制不稳、中途偏移后没恢复能力,都有可能。只看"成功/失败",大量关键信息直接被抹掉了。
在低成本机器人上,执行不稳定恰恰是非常真实的问题。电机精度、结构刚性、相机视角、控制延迟、标定误差,都会影响策略表现。这些问题在高端平台上不明显,在低成本平台上会被放大。
这个 Benchmark 的价值不在于证明某个 VLA 有多强,而是提醒一件事:真实机器人评测不能只看模型能力,还得看 embodiment uncertainty。模型在高质量平台上表现好,不代表它在低成本平台上也稳。VLA 想真正普及,就得面对普通、便宜、不完美的机器人本体。
结语:具身智能下一阶段,Infra 会比模型更"硬"
早期看具身智能,最容易被模型视频打动。机器人拿杯子、放碗里、开抽屉、完成长程任务,画面确实唬人。
做个漂亮 demo 不难,难的是让机器人在各种环境、各种任务、各种设备、各种失败情况下长期稳定运行。
这靠单个模型解决不了。少不了 Pipette 这样的行业训练场,少不了 Embodied-BenchClaw 这样的自动评测生成系统,也少不了 SO-101 Benchmark 这样的低成本真机评测入口。
具身智能 Infra 不是后台配角,它在重新定义前台能力。
未来真正值钱的团队,手里不一定非得有个最强模型,但得有一套能持续生产数据、生成任务、评测模型、连接真机的系统能力。
VLA 让机器人看到了通用操作的可能性。Infra 决定这条路能不能真正走下去。
-END-
Ask Me Anything|提问箱
❝对文章有疑惑,或想聊更深?欢迎把你的问题丢给我们:技术方案、实操踩坑、课程与资料、项目合作、职业发展,都可以问。
怎么问:在评论区留言,或私信公众号
我们会做什么:每周集中整理高质量问题并公开回复,重点问题邀请作者或嘉宾深度解答;典型问题会加入知识库并持续更新。
提问小提示:尽量说明「你的目标—当前做法—期望产出」,附上必要信息(硬件/软件版本、数据规模等),能更快获得有用答案。
一起把问题变成知识,推动社区进步 🚀
