点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

Pipette 把训练场塞进了生物实验室，Embodied-BenchClaw 让 Agent 自己出题造 Benchmark，SO-101 拿几百美金的机械臂做 VLA 真机测试。三件事看起来各干各的，实际上都在回答同一个问题：模型之外，剩下的活儿谁来干？

Pipette：机器人终于开始啃硬骨头了

这不是又一个仿真 demo，是专门给 wet-lab robotics 做的仿真平台、Benchmark 和数据增强工具。训练场从桌面摆积木、厨房收碗筷，推进到了生物医学实验室。

生物实验室其实特别适合机器人进场。大量重复、精细、标准化的动作——移液、转样、摆弄培养皿、试管操作、开关设备——人干久了会烦，机器人却不在意。流程清晰、价值高、安全和可复现性要求苛刻，正好对上机器人的强项。

但真实数据采集贵得离谱。总不能随便让机器人在真实实验室里试错吧？试剂、设备、耗材都是钱，操作失误可能污染样本、损坏器材，甚至整批实验直接报废。机器人要进这个场子，不能光靠真实数据硬怼，得有个安全、可控、能反复折腾的训练环境。

Pipette 做了这件事。

它提供了一套可编辑的实验室资产——试管、培养皿、实验器具——并搭了 11 个 wet-lab 任务。不止搭静态场景，还整了一套从少量人类示范到大规模训练数据的仿真增强流程。

身智能 Infra 专栏｜模型再强也只是起点，能把训练、评测、串成闭环的人，才是真赢家图1

人类先采一点真实示范，系统在仿真里回放，再往里加光照、相机、速度、动作等各种扰动，最后靠自动任务成功检测把无效轨迹筛掉。有限的人类示范，就这么被扩成了更大规模的训练数据。

以前聊机器人数据，老是个怪圈。没数据训不动模型，采数据又太贵，数据少了泛化差，泛化差部署就翻车。Pipette 走的是中间路线。真实采集太贵，纯仿真又信不过，那就拿真实示范当种子，仿真增强来扩覆盖。

这对垂直行业的机器人启发不小。具身智能最先落地的场景，大概率不是开放家庭，而是流程明确、价值密度高、任务能标准化的行业场景。湿实验室就是典型。家里乱糟糟的，湿实验室虽然也不简单，但比桌面抓取更贴近真实产业需求。

Pipette 其实透露了一个趋势：具身智能 Infra 正在从"通用玩具任务"往"垂直行业训练场"转。

Embodied-BenchClaw：以后 Benchmark 可能也得自己长出来

Pipette 解决的是"特定行业训练场怎么搭"，Embodied-BenchClaw 想的是另一件事：Benchmark 能不能自动构建？

现在的具身 Benchmark 不少，但也乱。每个 Benchmark 都有自己的任务定义、数据格式、评测脚本、指标体系。做一个新 Benchmark 往往要耗大量人工。得定义任务、收集数据、清洗、生成样本，还得写评测脚本、出报告。等 Benchmark 做出来，模型能力可能又往前窜了一截，原来的任务很快被刷穿。

Benchmark 建得慢，模型进步快，这个错位一直存在。

Embodied-BenchClaw 的思路，是把 Benchmark 构建变成多智能体协作的流程。输入不是固定数据集，是用户给的评测意图。比如你想测模型的室内空间推理、机器人操作、四足导航，系统就围绕这个意图自动生成一整套 Benchmark package。

身智能 Infra 专栏｜模型再强也只是起点，能把训练、评测、串成闭环的人，才是真赢家图2

整个过程被拆成几个阶段：意图蓝图设计、数据收集、结构化与清洗、Benchmark 合成、评测报告生成。背后由规划、构建、评估三类 Agent 分工干活。

以前手工出题，题目少、成本高、更新慢。Embodied-BenchClaw 的想法是，让系统自己根据评测目标生成题目、整理数据、构建任务，跑完评测出报告。

自动生成不等于人就可以撒手。恰恰相反，自动生成之后更需要把质量关。一堆自动生成的题目里，很可能混进错误、重复或者根本执行不了的任务。所以 Embodied-BenchClaw 里一个很重要的设计是技能库和过程质量控制——Benchmark 构建过程能拆开组合、出了问题能验能修，不是一次性吐出一堆没法维护的数据。

这个方向值得多看两眼。

未来的具身智能模型会越来越多，能力越来越复杂。每次都靠人工慢慢造 Benchmark，根本追不上模型迭代的速度。更现实的方式，是让 Benchmark 本身也变成动态系统——持续更新，不断诊断，随时暴露模型的短板。

过去靠 Benchmark 考模型，未来可能得靠 Agent 来造 Benchmark。

SO-101 VLA Benchmark：低成本真机评测开始上桌了

第三个项目是 Benchmarking Vision-Language-Action Models on SO-101。

最吸引人的地方，不是提了个新模型，是把 VLA 评测放到了一个低成本的真实机械臂平台上。

以前很多 VLA 评测，在仿真里跑，或者依赖昂贵的机器人平台。仿真便宜、可复现，但跟真实世界有 gap；贵平台更接近部署条件，门槛太高，社区根本复现不了。很多团队看了 VLA 的论文，却很难在自己手里的设备上系统测一把。

SO-101 这种低成本机械臂，正好填了这个空。它的价值不是性能最强，是便宜、开放、适合教学和社区复现。一个 VLA benchmark 能在这种平台上稳定跑起来，更多实验室、社区团队、学生、开发者都能参与真实机器人评测。

身智能 Infra 专栏｜模型再强也只是起点，能把训练、评测、串成闭环的人，才是真赢家图3

真正推动一个领域普及的，往往不是最贵的设备，而是门槛最低的标准平台。计算机视觉早期靠标准数据集，深度学习普及靠消费级 GPU，机器人 VLA 现在缺的是个大家都够得着的真实平台。

这个 Benchmark 还有个不错的设计：不只看成功率，还强调失败与恢复分析。

机器人任务不是二分类问题。一次失败，原因五花八门。语言理解错了、视觉定位偏了、执行时手抖、夹爪控制不稳、中途偏移后没恢复能力，都有可能。只看"成功/失败"，大量关键信息直接被抹掉了。

在低成本机器人上，执行不稳定恰恰是非常真实的问题。电机精度、结构刚性、相机视角、控制延迟、标定误差，都会影响策略表现。这些问题在高端平台上不明显，在低成本平台上会被放大。

这个 Benchmark 的价值不在于证明某个 VLA 有多强，而是提醒一件事：真实机器人评测不能只看模型能力，还得看 embodiment uncertainty。模型在高质量平台上表现好，不代表它在低成本平台上也稳。VLA 想真正普及，就得面对普通、便宜、不完美的机器人本体。

结语：具身智能下一阶段，Infra 会比模型更"硬"

早期看具身智能，最容易被模型视频打动。机器人拿杯子、放碗里、开抽屉、完成长程任务，画面确实唬人。

做个漂亮 demo 不难，难的是让机器人在各种环境、各种任务、各种设备、各种失败情况下长期稳定运行。

这靠单个模型解决不了。少不了 Pipette 这样的行业训练场，少不了 Embodied-BenchClaw 这样的自动评测生成系统，也少不了 SO-101 Benchmark 这样的低成本真机评测入口。

具身智能 Infra 不是后台配角，它在重新定义前台能力。

未来真正值钱的团队，手里不一定非得有个最强模型，但得有一套能持续生产数据、生成任务、评测模型、连接真机的系统能力。

VLA 让机器人看到了通用操作的可能性。Infra 决定这条路能不能真正走下去。

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。
怎么问：在评论区留言，或私信公众号
我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。
提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。
一起把问题变成知识，推动社区进步 🚀

身智能 Infra 专栏｜模型再强也只是起点，能把训练、评测、串成闭环的人，才是真赢家图4