谨慎对待 VLA:“摆拍式end2end泛化”六大常见套路

智猩猩 2025-08-30 21:57

作者:弗雷尔卓德,本文已获授权


地址:

https://www.zhihu.com/question/1920708362489828723/answer/1920722548087292522


主页链接:

https://www.zhihu.com/people/duo-qi-zuo-41


VLA属于愚公移山,精卫填海(暴力求解器,数据量巨大,成本巨高,永远无法满足任务要求)


盲人摸象(稳定性和可解释性低)


比较挺神奇的是,VLA初衷是不错的技术,但当下纯黑盒+数据 end2end 已到瓶颈期,已无更多提升空间,只能魔改网络。


VLA 当前的算法本质,就是过拟合,有的人说,那我采数据不得了?机器人任务需要的数据量,远远几个数量级的大于imageNet,至少应该是[万亿]个demonstration。所以暴力过拟合是没有未来的,会撞南墙,真正的AGI 还得smart一点,找到任务和场景共性。



前言

foreword

VLA 容易引导大量研究者,从深度研究机器人任务和场景,变成粗暴叠数据和魔改网络,简单任务上overfitting,弗雷哥希望大家多思考,多思考!

现阶段多数 VLA(Vision-Language-Action)系统本质仍是升级版行为克隆(BC),靠大规模数据与算力“硬凿”效果,泛化脆弱、难以复现。

在任务难度、场景复杂度、维度数量增加后,数据需求和失败概率呈指数级爆炸;“pick-place 拼题式”评测掩盖了这一点。

真正可扩展的机器人智能必须以可解释的任务建模、3D几何/物理建模、可验证的控制与规划模块为核心,而不仅是端到端炼丹。

我提出一个更稳健的技术路线:任务解析 → 语义到几何的桥梁 → 结构化世界模型(SE(3)、拓扑/约束图)→ 可解释策略合成 → 低层运动/力控制闭环 + 可靠评测协议。

建议行业建立标准化、多维度难度递增的 benchmark、严格的复现与统计报告规范,杜绝“摆拍式成功率”。 换句话说:闭眼炼丹 end2end 那一套,别再拿来糊弄人了。劣币驱逐良币的戏码,到我这里就刹车。 再直白点:这一锅端到端神药,我先翻个底朝天;谁再拿“玄学 trick”糊我,我就拿 SE(3) 当板砖拍回去。

1

问题背景:为什么“语言巨人,行动矮子”?


先把丑话放前头:VLA 现在这套路数,真就是“语言巨人,行动矮子”。嘴上 AGI,手上 pick-place,嘴上说泛化,脚下全靠摆拍。

1. 跨模态跨度过大:从自然语言直接映射到高维连续控制(Action),中间缺失了任务逻辑、物理约束、空间几何等关键桥梁。
2. 数据与算力的“劣币逻辑”:堆数据/算力短期见效,但不可解释、不稳定、不可扩展;复杂任务下成本爆炸。
3. 评测与宣传脱节:大量工作在最简单的 2D 桌面、少量物体、短轨迹下报“90%+ 成功率”;统计口径不透明,任务难度可被随意“调参”。
4. 黑盒不可控:系统边界模糊——“能不能倒水/切洋葱/织毛衣?”没有可验证的阶段性能力定义和安全边界。

2

为什么公司还在推 VLA?(并不是因为

它“效果好、通用、便宜、快”)


1. 效果好吗?不是。 多数实验集中在极简任务与环境,真实复杂任务掉线严重。
2. 通用性好吗?也不是。 脱离任务难度谈“通用”就是耍流氓——维度一增,立刻崩。
3. 便宜吗?表面便宜。 省的是人类建模思考的“脑力成本”,贵的是暴力算力与海量数据采集/清洗。
4. 推理快吗?是“快决策”,但“快”不等于“对”。抛开效果谈速度,同样是耍流氓。

ChatGPT 的成功无法直接迁移到机器人:语言到文本的映射距离远小于语言到高维连续控制。Action 这一步跨越过大,端到端大模型极易在 mapping 上失败。
行动远比视觉/语言复杂一条完整的运动学/动力学轨迹涉及时空连续约束、接触力学、工具在手 manipulation 等,这些维度的数据极其稀缺,也难以标准化标注。

资讯配图


3

典型 VLA 技术路径与症结


典型流水线:视觉编码器(或 VLM)→ 语言指令编码 → 融合模块 → 行为解码器(policy / value / affordance)→ 低层控制。


资讯配图

资讯配图


未来工业和学术界,一定是可解释的泛化(强任务理解),不可能是莫名其妙,乱七八糟数据炼丹的泛化,如果莫名其妙,一定会伴随极其不稳定,不可复现的存在(除非任务简单+摆拍),不然任务难度每提高一级,场景复杂一点,数据需求一定会指数级(千倍)万倍,亿倍上升。
 

4

“指数爆炸”的本质:任务维度 × 场景

复杂度


设任务复杂度由下列维度驱动:



在多数 VLA 架构中,训练样本需求近似与这些维度的组合呈指数关系(别问,问就是“一算就露馅”):


因此,当从“桌面单物体抓取”→“多物体遮挡+柔性物体操作+长序列”时,所需有效示例会暴涨 100×、1000× 乃至 1004345×(你要愿意吹,10^5、10^6 也行)。没有结构化归纳偏置(inductive bias)的模型,只能靠数据穷举——然后再告诉大家:看,我用 trick work 了。


action 运动学轨迹本身复杂程度,远超language和vision本身,但数据又极其稀少。


举个例子:

vision:你识别一个脚上肿块组织,
language:  肿块组织不好,要及时切除
action: 精准从各种器械里找到手术刀,在手上in hand manipulation, 调解手术刀的位置,计算整个患者组织和手术刀的空间坐标系,不同策略和力度,剥离一层层组织,绕开血管,一点点从脚趾骨和经络旁边剥离这个肿块组织。

 

5

“摆拍式泛化”六大常见套路(请对号入座)


友情提示:以下任何一条你中了,成功率别报 90%,报个“幽默 60%”都算老实人。

1)任务拆名不拆实:把同一类 pick-place 伪装成几十个“任务名”。


首先最重要的,选个最简单的任务,


任务极其简单,也就是pick-place:


抓起来,放下去,抓起来,放下去。


资讯配图


多一个曲线或者多步骤轨迹,系统都直接发散无法收敛了


把百事可乐放在余华《活着》上面 
把七喜放在《天利三十八套》上面 
把可口可乐放在《泰勒新专辑》上面 
把全脂牛奶放在梵高《星空》上面 
把脱脂牛奶放在农夫山泉右边 
把蜜雪冰城柠檬水放在线性代数左边 ………

恭喜你,100 个“通用任务”到手,其实都是一个 pick-place。万能 60%,闭眼都能过审。


很多人比较搞笑,他们为了装逼,pick-place,不叫pick-place,还无限细分,这样隐藏自己10个task,实际上就是一个task。


比如: put the bottle on the desk
比如:pick the pen to the pencil case
比如:move the bowl on the box

你但凡选个倒水,叠衣服,刷盘子,之类的,大概率0.001%的成功率起步,不给0%是因为过不了初审,但弗雷哥要说,倒水这个任务,vla肯定是0%起步。


2)背景极简纯色桌面 + 1~2 个物体,避免视觉干扰。


通常就是桌面上,完完全全纯色的背景,

背景就只有一个物体,最多两个物体。

多一个都怕出错。只能1-2个。

但人类生活中,肯定是非常clutter的环境,所以1-2个物体,这种情况根本不存在。

以下场景VLA全GG:

资讯配图


3) 二维近似忽略三维姿态/遮挡/容器/嵌套等情形。


人类是生活在3D空间,很多情景,


1) 物体是有空间位子position和姿态orientation变化


2)物体几个是很可能overlap到一起的


比如以下3D情况,VLA根本无法处理。


资讯配图


4) 统计口径模糊采样次数、失败处理、难度分级不公开。


5) 人类干预没算进公式失败重置、示教再来、后期剪辑不透明。


6) demo 挑选最佳角度镜头、光照、抓取点都事先调好。


7)VLA 就是一个BC


本身理论上来说,AI应该观察人类一次演示数据就OK的,但是,目前VLA,需要几百次数据,做一个单一2D场景,pick place的简单任务,跟大算力枚举,基本没区别,真是糟蹋算力。

一个任务,最多3次few shots了,再教下去,没有耐心了,谈什么智能。

弗雷哥给女朋友演示3次倒牛奶,她都不会。

后续的 VLA 本质上就是一个升级版BC,没有太多新的东西。


很多纯CS出身的人,常常陷入误区,效果不好是因为这个框架可以微调改进,效果从90%可以微调到95%,哦耶,这样赢了。


问题是,本身90%这个,效果就是极其不科学的计算出来的准确率,成功率,摆拍30次,成功了27次,你给我说你这个任务成功率90%。


弗雷哥揭露这些人,怎么得出90%的这个效果的,实际上你成功率100%都可以,完全你自己去控制难度。


重点来了:机器人理解学习人类世界,必须利用空间几何计算进行modeling ,所以只有建立在 interpretable 的 robot learning 才是稳扎稳打,才是一步一个脚印地发展技术,建立护城河。任何一片不包含几何计算的robot learning的论文,都是地基不稳,后面误差完全不可控,苦海无边回头是岸。


所以说,现在公司主流的都是VLA,包括DeepMind Gemini Robots, 还有一种公司都采用VLA技术,为什么呢?


1. 因为效果好吗?不是,效果极差
2. 因为通用性好吗?不是,抛开任务难度谈通用是耍流氓。
3. 因为便宜吗?是,也不是。便宜的是人脑,让人类不需要思考这么多,贵的是算力,因为暴力求解需要大量算力。
4. 因为推理速度快吗?啊对,他就是可以很快抉择,就是快。指整个系统在新的任务下和指令干预下,响应速度快。但是抛下效果谈速度,就是耍流氓。


ChatGPT的成功,没办法复现在机器人上。只能做一个上层接口,action这一步,跨得太大,大模型,注定会 mapping 失败。 什么rekep,还有一堆pi0的demo,没有一个敢放到icra和iros给大家展示,一展示,摆拍的套路,全露馅。


最最最重要的来了:Boundary 不清晰,完全黑盒是最致命的弱点。


你根本不清楚,VLA到哪个阶段可以做什么任务。比如VLA哪个阶段可以切洋葱,哪个阶段可以织毛衣,哪个阶段可以拆笔记本电脑、哪个阶段可以做手术?


完完全全都未知,或者说完全不可能。


VLA鼓吹的zero shot,怎么可能呢?连人都做不到zero shot,哦,你没见过洋葱,你没拨过洋葱,你如何莫名其妙让ChatGPT给你,倒水,扫地,抓拿放,关门等一些列,一点不相关任务,


莫名其妙涌现,拨洋葱技能,哦,我涌现了复杂的拨洋葱skill,


如果你一层一层一层地拨开目前end2end的 VLA的洋葱内心,你会发现,你会鼻酸,你发现什么tm的都没有哦。都是一团酱胡。


弗雷哥眼里真的的robot learning未来可靠的路径


模块化视角(Language → Task Graph → Geometry → Control)


1) 任务解析与逻辑建模



2) 语义-几何桥梁(Semantic→Geometric Grounding)



3) 可解释策略合成



4) 低层控制闭环



数据策略:少而精 vs 海量同质



评测与复现规范



弗雷哥不是不鼓励大家用AI,弗雷哥完全不鼓励,没有一点modeling,没有一点可解释性,没有一点水平,没有一点对于机器人任务和场景本身理解和建模的系统。


纯End2end,视觉对齐尚且一大堆问题,更复杂,更具有挑战性的动态物理世界,问题远比视觉对齐难100倍。因此目前框架肯定不太可能实现VLA的爆发增长


[1] RT-1:Brohan, A., et al. (2022). RT-1: Robotics Transformer for Real-World Control at Scale. In Proceedings of Robotics: Science and Systems (RSS).
[2] RT-2: Brohan, A., et al. (2023). RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control. arXiv preprint arXiv:2307.15818.
[3] RT-X: Brohan, A., et al. (2023). Open X-Embodiment: Robotic Learning Datasets and RT-X Models. Project Website. 
[4] OpenVLA: Kim, M. J., et al. (2024). OpenVLA: An Open-Source Vision-Language-Action Model. In Conference on Robot Learning (CoRL).
[5] π₀ (Pi-Zero): Physical Intelligence, Inc. (2024). π₀: A Foundation Model for Robotics. Project Website and Technical Announcements.
[6] ReKep: Bai, Y., et al. (2024). ReKep: Relational Keypoint Constraints for Category-Level Robotic Manipulation. arXiv preprint arXiv:2409.01652.
[7] PaLM-SayCan: Ahn, M., et al. (2022). Do As I Can, Not As I Say: Grounding Language in Robotic Affordances. arXiv preprint arXiv:2204.01691.
[8] Code as Policies: Liang, J., et al. (2023). Code as Policies: Language Model Programs for Embodied Control. In IEEE International Conference on Robotics and Automation (ICRA).
[9] Inner Monologue: Huang, W., et al. (2023). Inner Monologue: Adding Unseen Tools to a Robot's Repertoire. In Conference on Robot Learning (CoRL).
[10] LLM-As-Planner:  Singh, I., et al. (2023). ProgPrompt: Generating Situated Robot Task Plans using Large Language Models. In IEEE International Conference on Robotics and Automation (ICRA).
[11] GR-1: Fourier Intelligence (2023). Fourier GR-1 Humanoid Robot Introduction. Technical Datasheet. (GR-1是商业化机器人,其技术细节主要通过官方技术手册和公告发布)。
[12] RoboCasa: Weng, Z., et al. (2024). RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots. arXiv preprint arXiv:2405.18833.
[13] DROID: Lakshmiprasad, A., et al. (2024). DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset. arXiv preprint arXiv:2403.02021.


END


      推荐阅读      


灵巧手抓放任务成功率100%!帕西尼联合上交大提出融合触觉的VLA模型OmniVTLA

全面优于π0!星海图开源端到端双系统VLA模型G0:基于500小时真机数据预训练

训练数据65万条!上海AI Lab联合提出端到端VLA模型InstructVLA,真机实验成功率超OpenVLA

20亿参数+全面超越π0!清华朱军团队&地平线提出全新VLA模型H-RDT,有效从人类操作数据中学习

机器人非抓取操作重大突破!北大&银河通用王鹤团队提出自适应世界动作模型DyWA | ICCV 2025


点击下方名片 即刻关注我们

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号