点击下方卡片，关注【Xbotics具身智能实验室】公众号

更多具身干货，欢迎加入（戳我）

👉具身智能学习资料汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-Guide

👉具身智能求职/实习信息汇总：https://github.com/Xbotics-Embodied-AI-club/Xbotics-Embodied-AI-Job

你想要的这里都有~~

过去一年，具身智能圈子里最热的词是 VLA。

一个 VLA 模型想要跑起来，并不只是加载权重、输入图像、输出动作这么简单。它背后还需要数据采集、数据存储、训练调度、仿真交互、RL 后训练、模型评测、推理部署、真机闭环。任何一个环节不稳，最后都会变成一句熟悉的话：论文看起来很好，代码跑不起来；仿真能跑，真机不稳；单任务能跑，多任务一上来就崩。

所以，具身智能正在进入一个新阶段。第一阶段卷模型，第二阶段卷数据，第三阶段卷 Infra。

这里的 Infra，不是普通意义上的机器人仿真平台，也不是某一个模型仓库，而是支撑具身模型持续训练、评测、部署和迭代的系统底座。今天挑五个代表性项目，分别对应五个关键方向：RL 后训练系统、VLA 工程平台、模块化研发框架、统一评测系统、机器人大数据管理。

1.RLinf：VLA 后训练的“调度中枢”

如果说模仿学习解决的是“机器人学会照着人做”，那么 RL 后训练要解决的就是“机器人能不能在环境反馈里越做越好”。

RLinf 的重要性就在这里。它不是一个 VLA 模型，而是一个面向基础模型强化学习后训练的系统框架。对具身智能来说，这件事很关键。因为 VLA 不可能永远只靠静态数据集训练，真正部署到仿真和真机之后，模型一定会遇到失败、卡顿、误抓、误放、长程任务中断等问题。这个时候，系统要能把环境交互、rollout、奖励、训练、模型更新串起来。

传统 VLA 训练更像“离线做题”：给模型一堆示范数据，让它学会模仿。RLinf 代表的是另一个方向：把模型放回环境里，让它在任务执行中学习。这里最大的难点不是算法公式，而是系统工程。仿真要跑，模型推理要跑，训练也要跑，GPU、CPU、环境进程、模型服务之间要协调，否则训练吞吐很快就会被拖垮。

这也是为什么 RLinf 更像“训练操作系统”，而不是一个普通训练脚本。它真正想解决的是：当 VLA 进入强化学习和在线优化阶段，谁来管理这些复杂的执行流？

未来具身智能如果要从“会模仿”走向“会改进”，RL 后训练系统会越来越重要。

2.FluxVLA：把 VLA 从论文代码变成工程平台

FluxVLA 更像是国内具身模型 Infra 里很典型的工程化代表。

很多 VLA 项目刚开源时，代码结构往往服务于论文复现：数据怎么读、模型怎么训、推理怎么跑，都围绕某一个实验设计展开。但工程团队真正要用的时候，需求完全不一样。他们需要统一配置、统一接口、模块解耦、多机多卡训练、部署链路、真机接入，还要能把不同模型和不同机器人平台串起来。

FluxVLA 想做的就是这件事：把 VLA 研发从“单个模型实验”推进到“全流程工程闭环”。

它的价值不在于又提出一个新模型，而在于把数据、训练、评测、推理和真机部署放进同一个工程体系里。对于高校和企业团队来说，这类平台的意义很直接：减少重复造轮子，把精力从环境配置和代码适配中释放出来，转向模型改进、任务设计和真实部署。

这类项目的出现说明一个趋势：VLA 不再只是算法同学的事情，也变成了工程系统问题。未来团队比拼的，不只是有没有一个好模型，而是谁能更快完成从数据到真机的闭环。

3.StarVLA：VLA 开发正在变成“乐高积木”

StarVLA 的关键词是 Lego-like。

这其实是一个很形象的比喻。过去做 VLA，很多东西是绑在一起的：换一个 backbone，代码要改一堆；换一个 action head，数据和训练逻辑也要跟着动；换一个 benchmark，又要重新写评测脚本。最后每个项目都像一个定制化机器，能跑，但不好拆，也不好复用。

StarVLA 想把这件事拆开。

它把 VLA 研发拆成更清晰的模块：模型 backbone、action head、数据加载、训练流程、benchmark 评测、部署接口。这样一来，研究者可以更容易地比较不同变量：同一个数据和训练框架下，换 FAST、OFT、flow matching 或 GR00T-style action head，到底会带来什么变化？同一个 action head 下，换不同 VLM backbone，又会发生什么？

这对行业很重要。因为 VLA 现在最大的问题之一，就是大家很难判断一个模型变强到底来自哪里。是数据更多？backbone 更好？action 表达更合理？训练 recipe 更稳定？还是评测设置更友好？

模块化框架的价值，就是让这些变量被拆开。它不一定立刻带来最强模型，但能让研究和工程迭代变得更清楚、更快、更可复现。

如果说 FluxVLA 更像工程闭环平台，那么 StarVLA 更像一个 VLA 研发工作台。

4.vla-eval：没有统一评测，模型比较就是玄学

VLA 领域还有一个长期痛点：评测太乱。

同样一个模型，在不同 benchmark、不同代码分支、不同依赖版本、不同 observation 格式下，结果可能差很多。更麻烦的是，很多团队为了跑某个 benchmark，会维护自己的私有 fork。久而久之，bug 修复不能共享，实验设置不透明，复现别人的结果变成一件很费时间的事。

vla-evaluation-harness，也就是 vla-eval，想解决的就是这个问题。

它的思路很简单：模型和 benchmark 解耦。模型只需要按统一接口提供预测能力，benchmark 也按统一接口运行任务。中间通过标准协议连接。这样一来，一个模型接入一次，就可以跑多个 benchmark；一个 benchmark 接入一次，也可以评测多个模型。

这件事听起来不性感，但非常关键。

因为具身智能越往后走，单个 demo 的说服力会越来越弱。真正有价值的是可复现、可比较、可扩展的评测体系。否则每个团队都在自己的环境里说自己效果好，行业就很难形成真正的共识。

vla-eval 代表的是 VLA 进入“基础设施化评测”的阶段。未来模型发布时，大家可能不只看论文视频，而是看它能不能在统一评测系统里稳定跑过一组任务。

5.Robo-DM：机器人数据管理，可能是被低估的底座

最后一个项目是 Robo-DM。

很多人聊具身智能数据，第一反应是“数据量够不够大”。但真正做过机器人数据的人会知道，问题远不止数据量。

机器人数据非常麻烦。它不是简单的图文对，而是多相机视频、深度图、机器人状态、末端位姿、关节角、夹爪状态、语言指令、动作序列、时间戳等多模态数据的组合。不同传感器频率不同，不同设备格式不同，采集、压缩、传输、加载、回放都可能出问题。

Robo-DM 的价值就在这里：它把机器人轨迹数据当成一个需要专门管理的系统问题，而不是简单塞进文件夹。

它关注的是大规模机器人数据如何高效存储、共享和加载。对未来 VLA 训练来说，这可能是非常底层但非常重要的一环。因为当数据规模从几千条轨迹变成几十万、几百万条轨迹后，训练瓶颈不一定在模型，也可能在数据读取、视频解码、云端传输和时间同步上。

换句话说，机器人数据不是“有了就行”，而是要能被高效管理、稳定复用、快速加载。没有好的数据系统，再大的数据集也可能变成工程负担。

结语：具身智能的竞争，正在从模型走向系统

这五个项目放在一起看，会发现一个很明显的变化：

具身智能不再只是在卷单点能力，而是在补整套系统。

RLinf 解决的是后训练和交互学习的问题；FluxVLA 解决的是 VLA 工程闭环的问题；StarVLA 解决的是模块化研发的问题；vla-eval 解决的是统一评测的问题；Robo-DM 解决的是机器人数据管理的问题。

它们分别站在不同位置，但共同指向同一个趋势：

未来真正有壁垒的，可能不只是某个模型权重，而是一整套能持续产生模型、验证模型、部署模型、改进模型的基础设施。

VLA 让机器人开始具备“看懂指令并输出动作”的能力。但要让这种能力真正进入工厂、家庭、商业场景，还需要更扎实的系统底座。

具身智能的下一场竞争，可能不在单个 demo 里，而在这些看起来不那么耀眼、却决定模型能不能真正跑起来的 Infra 里。

-END-

Ask Me Anything｜提问箱

❝
对文章有疑惑，或想聊更深？欢迎把你的问题丢给我们：技术方案、实操踩坑、课程与资料、项目合作、职业发展，都可以问。

怎么问：在评论区留言，或私信公众号

我们会做什么：每周集中整理高质量问题并公开回复，重点问题邀请作者或嘉宾深度解答；典型问题会加入知识库并持续更新。

提问小提示：尽量说明「你的目标—当前做法—期望产出」，附上必要信息（硬件/软件版本、数据规模等），能更快获得有用答案。

一起把问题变成知识，推动社区进步 🚀