“视觉感知-语言理解-导航+操作” 的全链路协同能力
——全球首个常态化运营的城市级人形机器人零售解决方案
在WRC,银河通用的Galbot机器人,凭借GroceryVLA大模型的支持,在1:1还原的真实商超场景下自主完成了从接收指令到移动到目标商品,再抓取商品后送到顾客手中的整个过程。
如何才能实现一套这样的方案呢?这需要解决4个核心技术问题:
“
接下来,我们将围绕这4个核心技术问题的解决思路展开探讨。
以下内容仅为小编的个人分析与思考,不代表GroceryVLA方案的官方实现逻辑,如有错误,欢迎大家评论区指正!
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
视觉环境感知
在复杂的商超场景中,机器人要准确执行任务,精准的视觉环境感知是基础。因为只有机器人能识别到目标商品,才能为后续的动作决策提供准确的依据。
多模态大模型的感知
在机器人视觉感知中,单纯依靠视觉特征可能存在模糊性(例如:有些商品包装雷同),难以准确识别出目标商品。
因此需要结合其他的模态特征来加以区分。
CLIP是目前主流且经典的多模态感知大模型,它通过大规模图像-文本对的对比学习,建立了视觉和语言之间的语义关联,为视觉感知注入了丰富的语义信息。
在商超场景下,将视觉上的商品特征与文本标签对应起来(例如将红色罐装且带有特定图案的视觉特征与 “可口可乐易拉罐” 的文本标签对应上),可以帮助机器人准确识别出歧义商品。
在一些结合CLIP的具身智能项目中:
CoW(CLIP on Wheels)1:利用CLIP进行目标定位和经典探索策略结合进行零样本视觉语言对象导航,在HABITAT MP3D上的导航效率(SPL)与训练5亿步的SemanticNav-ZSON相当,在ROBOTHOR子集上的成功率显著优于EmbCLIP-ZSON(提升了15.6%)。
Robotic-CLIP2:在Alpha-CLIP上进行了改进,因此Robotic-CLIP能更准确的识别感知,例如在Grasp-Anything数据集上,Robotic-CLIP抓取检测的IoU达0.51,相较于CLIP提升了5%,显著减少了误识别情况,并且在CARLA模拟器上测试,导航成功率达86%,高出基于CLIP基线的9%,抓取成功率提升了12%。

▲说明:让CoW机器人去找位于桌子上的姜饼屋©️【深蓝具身智能】编译
相关阅读:10年VLN之路:详解具身智能「视觉-语言-导航」三大技术拐点!

自然语言指令解析
由于人们下达的指令往往都是模糊、口语化的,该算法需要准确的将这些自然语言转化为机器人可理解并执行的任务指令。
基于大模型的指令解析
LLaMA只需要构建大规模零售领域指令的数据集,让LLaMA学习不同指令与商品类别、位置等信息的映射关系。然后结合LoRA技术进行微调,大幅降低微调成本和显存占用。
微调后的LLaMA模型就可以高度适配零售领域,从而精准把握用户需求(例如:“帮我找一下放在角落里的打折洗发水”),目标位置→角落,目标商品→洗发水,特点→打折商品)。
在一些结合LLaMA的具身智能项目中:
ManipLLM3:采用LLaMa-Adapter作为BackBone,CLIP作为视觉编码器,通过微调CLIP-Adapter和LLaMa-Adapter并冻结CLIP、LLaMa的主要参数,最后得到一个只需要一张图片和一条指令就可以推理出操作任务的具身模型,在真实环境下测试,操作成功率高达80%。
▲说明:ManipLLM让机械臂打开抽屉©️【深蓝具身智能】编译

导航模块
如何让机器人导航到目标商品前?其关键技术点在于:
首先要让机器人知道自己在哪里,即定位+建图:定位往往伴随着建图的,定位的本质是确定“自身在环境中的位置”,而地图则是定义“环境坐标系统”的基准;
然后要让机器人知道要去哪里,即路径规划;
最后还要告诉机器人怎么去,即轨迹追踪/运动控制规划。
环境构建与定位
要让机器人能够导航,一般需要构建环境地图,这种地图大致分为2种:
一种是事先构建好的先验地图,例如:
OpenBench4:使用OSM提供先验地图,通过MobileSAM对地图进行分割后,利用CLIP模型进行标签分类,从而形成语义信息;然后叠加上激光雷达数据,形成语义地图;在定位时,将激光数据和语义地图进行scan match,从而得到定位信息。
另一种是过程中构建地图,例如:
对于未知区域的机器人探索导航问题,一般会实时构建frontier地图,驱使规划器尽可能的朝着frontier的方向进行路径规划,以便促使机器人朝着未知区域进行移动,从而达到探索未知区域的目的。
▲说明:以此图来说明展示frontier©️【深蓝具身智能】编译
当所有frontier消耗殆尽,则说明所有区域都已经完成探索。
Mem2Ego5:通过从全局记忆模块中自适应检索与任务相关的线索,然后将这些线索映射到智能体的自我视角中进行观察,通过将全局上下文信息与输入的局部感知信息相结合,使智能体做出明智的行动决策。
MTU3D6:是一个将主动感知与三维视觉-语言学习相结合的统一具身导航框架,通过将未探索区域表示为frontier地图查询以及对物体定位与frontier选择的联合优化问题来实现定位与探索的统一。
相关阅读:
突破VLN难点!华为诺亚Mem2Ego革新长距离具身自主探索导航,3大记忆模块梳理+解析
登顶 ICCV 2025!清华大学提出统一具身智能导航框架:主动感知、三维视觉-语言理解
【硬核教程】从0实现VLN导航:以波士顿动力VLFM为例,原理+代码全面解析「视觉-语言」模型
路径规划与轨迹追踪/运动控制规划
当有了导航地图,机器人也能实时获取自身在地图中的位姿后,这时只需要解析用户的指令,得到目标位置的方位。
然后结合路径规划算法生成轨迹路径,由于场景并不复杂,因此一般传统的方法即可(探索类如A*、D*;采样算法如RRT;优化算法如MPC等)。
最后机器人不断追踪轨迹移动并实时调整,可以结合PID或MPC等控制方法进行实现。

例如在OpenBench方案中,导航模式下使用多级Dijkstra(MLD)算法进行路径规划:MLD通过利用分层图减少搜索空间,从而能够快速确定最优路径;探索模式下,将OSM转换为代价地图以便进行A*路径搜索,随后使用TEB进行轨迹跟踪。

操作模块
当机器人到达目标位置,此时目标商品在机械臂抓取范围内时该如何控制机械臂正确抓取目标商品呢?需要如下步骤:
首先通过前文提到自然语言指令解析和导航模块,可以得到视觉特征和用户指令tokens;
然后将它们嵌入融合后输入到多模态大模型内,从而理解用户的意图进行决策;
最后交由动作推理模型生成低级别动作指令,从而完成机器人操作任务。
动作推理
动作推理环节核心在于:依据多模态大模型对用户意图理解后的决策结果,生成精确、可行的低级别动作指令,从而驱动机械臂完成对目标商品的抓取。
首先是输入融合阶段。
视觉特征经过前期的视觉处理模块,包含了目标商品的位置、形状、颜色等关键信息,这些信息以特征向量的形式呈现。
用户指令 tokens 则通过自然语言处理模块转化为计算机可理解的语义表示。随后,将视觉特征向量与指令语义表示进行嵌入融合,形成一个统一的多模态输入向量。
这种融合并非简单拼接,而是通过特定的融合算法,使得视觉与语言信息能够相互补充、协同,为后续的模型处理提供更全面、丰富的信息基础 。

然后将融合后的输入向量送入多模态大模型。
多模态大模型内部基于Transformer架构等先进技术,通过自注意力机制等运算,对输入信息进行深度处理。模型在大规模数据训练中学习到了丰富的 “指令-视觉场景-动作决策” 映射关系。
比如用户说 “抓取那个红色瓶子”,模型要结合视觉场景中红色瓶子的位置、姿态等信息,判断出抓取动作的大致策略,是从上方抓取、侧面抓取,还是需要先调整角度再抓取等。
最后,基于多模态大模型的决策结果,动作推理模型开始发挥作用。
动作推理模型可以选择Diffusion Policy,它通过概率扩散过程生成动作序列,能天然建模不确定性,提升复杂场景鲁棒性,尤其是在长时序抓取动作规划中表现出了优异的泛化性与数据效率。
▲说明:DexGraspVLA效果展示©️【深蓝具身智能】编译
DexGraspVLA7:将一个指令分成多个阶段的任务,对于每个阶段的任务,将多模态数据(用户提示、头部摄像头观测图像)输入到多模态大模型中,得到目标物体的边界框。
然后由Diffusion Policy预测出多步动作序列,然后采用滚动时域控制策略,即在生成新的动作块预测之前,仅执行前 个动作,以提高实时响应能力。
该方案在 “零样本” 环境下,面对数千种不同的物体、光照和背景组合,灵巧抓取的成功率高达90%以上。
相关阅读:北大 | 首个通用灵巧抓取框架 DexGraspVLA代码+原理解析:零样本测试成功率高达90%
也可以选择结合LAM(Latent Action Model),学习商超场景下抓取商品的视角的特定任务通用策略,在结合低成本的动作解码器,轻松部署到各种机器人上。
其优势是通过“潜在动作”作为桥梁,实现跨场景、跨智能体的动作迁移,例如:
UniVLA8和智元的ViLLA9都采用了LAM,通过这种形式将连续图像投影到隐式动作空间,使隐式动作作为中间过程表征,从而弥合图像、文本输入到机器人动作之间的差距。
相关阅读:
AGI关键拼图!(附实现代码)智驾传奇团队再出手:UniVLA 打造机器人通用行动指南
稚晖君团队开源 | 100万轨迹、ViLLA架构,数据集+算法解析:复杂任务成功率提升32%!

总结
尽管上述模块中的各种算法在推动机器人VLA发展上取得了一定成果,但仍存在诸多亟待解决的问题。
例如:在数据方面,存在数据量级和多样性不足的问题,训练 VLA模型的数据与纯语言模型相比差距较大,且多来自简单环境,难以覆盖复杂真实场景,限制了模型环境的适应能力。
因此,要让机器人VLA走向成熟,充分释放具身智能潜力,学术界和工业界任需在这些关键问题上持续探索突破。
编辑|木木伞
审编|具身君
参考资料:
>>>现在成为星友,特享99元/年<<<

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇
商务合作扫码咨询
机器人、自动驾驶、无人机等研发硬件
关于我们:深蓝学院北京总部于2017年成立,2024年成立杭州分公司,2025年成立上海分公司。
学院课程涵盖人工智能、机器人、自动驾驶等各大领域,开设近100门线上课程。拥有多个实训基地助力教学与科研,多台科研平台硬件设备可供开展算法测试与验证。
服务专业用户数达11万+(人工智能全产业链垂直领域的高净值用户),硕博学历用户占比高达70%。已与多家头部机器人企业、头部高校建立深度合作,深度赋能教育 、企业端人才培养与匹配。
工作投稿|商务合作|转载:SL13126828869


点击❤收藏并推荐本文