技术拆解 | Galbot闭环控制实战,从感知到指令理解、决策,如何实现机器人的精准操作

深蓝具身智能 2025-08-15 11:30

资讯配图

“视觉感知-语言理解-导航+操作” 的全链路协同能力

——全球首个常态化运营的城市级人形机器人零售解决方案

在WRC,银河通用的Galbot机器人,凭借GroceryVLA大模型的支持,在1:1还原的真实商超场景下自主完成了从接收指令到移动到目标商品,再抓取商品后送到顾客手中的整个过程

如何才能实现一套这样的方案呢?这需要解决4个核心技术问题:

如何基于视觉对环境进行感知?
如何理解用户的自然语言指令?
如何让机器人导航到商品货架前?
如何让机器人抓起目标商品?

接下来,我们将围绕这4个核心技术问题的解决思路展开探讨。

以下内容仅为小编的个人分析与思考,不代表GroceryVLA方案的官方实现逻辑,如有错误,欢迎大家评论区指正!


我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?

欢迎关注【深蓝具身智能】👇

资讯配图

视觉环境感知

在复杂的商超场景中,机器人要准确执行任务,精准的视觉环境感知是基础。因为只有机器人识别到目标商品,才能为后续的动作决策提供准确的依据。

多模态大模型的感知

在机器人视觉感知中,单纯依靠视觉特征可能存在模糊性(例如:有些商品包装雷,难以准确识别出目标商品。

因此需要结合其他的模态特征来加以区分。

CLIP是目前主流且经典的多模态感知大模型,它通过大规模图像-文本对的对比学习,建立视觉和语言之间的语义关联,为视觉感知注入丰富语义信息。

在商超场景下,将视觉上的商品特征与文本标签对应起来例如将红色罐装且带有特定图案的视觉特征与 “可口可乐易拉罐” 的文本标签对应上)可以帮助机器人准确识别出歧义商品。

资讯配图

在一些结合CLIP的具身智能项目中:

CoW(CLIP on Wheels)1:利用CLIP进行目标定位和经典探索策略结合进行零样本视觉语言对象导航,在HABITAT MP3D上的导航效率(SPL)与训练5亿步的SemanticNav-ZSON相当,在ROBOTHOR子集上的成功率显著优于EmbCLIP-ZSON(提升15.6%

Robotic-CLIP2:在Alpha-CLIP上进行了改进,因此Robotic-CLIP能更准确的识别感知,例如在Grasp-Anything数据集上,Robotic-CLIP抓取检测的IoU达0.51相较于CLIP提升了5%显著减少了误识情况,并且在CARLA模拟器上测试导航成功率达86%,高出基于CLIP基线的9%,抓取成功率提升了12%。

资讯配图

说明:让CoW机器人去找位于桌子上的姜饼屋©️【深蓝具身智能】编译

相关阅读:10年VLN之路:详解具身智能「视觉-语言-导航」三大技术拐点!

资讯配图

自然语言指令解析


由于人们下达的指令往往是模糊、口语化的,该算法需要准确的将这些自然语言转化为机器人可理解并执行的任务指令

基于大模型的指令解析

LLaMA只需要构建大规模零售领域指令数据集,让LLaMA学习不同指令与商品类别、位置等信息的映射关系。然后结合LoRA技术进行微调,大幅降低微调成本和显存占用。

微调后的LLaMA模型就可以高度适配零售领域,从而精准把握用户需求(例如:“帮我找一下放在角落里的打折洗发水”),目标位置→角落,目标商品→洗发水,特点→打折商品)。

在一些结合LLaMA的具身智能项目中:

ManipLLM3用LLaMa-Adapter作为BackBone,CLIP作为视觉编码器,通过微调CLIP-Adapter和LLaMa-Adapter并冻结CLIP、LLaMa的主要参数,最后得到一个只需要一张图片和一条指令就可以推理出操作任务的具身模型,在真实环境下测试,操作成功率高达80%

资讯配图

ManipLLM让机械臂打开抽屉©️【深蓝具身智能】编译

资讯配图

导航模块

如何让机器人导航到目标商品前?其关键技术点在于:

环境构建与定位

要让机器人能够导航,一般需要构建环境地图,这种地图大致分为2种:

OpenBench4使用OSM提供先验地图,通过MobileSAM对地图进行分割后,利用CLIP模型进行标签分类,从而形成语义信息;然后叠加上激光雷达数据,形成语义地图;在定位时,将激光数据和语义地图进行scan match,从而得到定位信息。

对于未知区域的机器人探索导航问题,一般会实时构建frontier地图,驱使规划器尽可能的朝着frontier的方向进行路径规划,以便促使机器人朝着未知区域进行移动,从而达到探索未知区域的目的。

资讯配图

说明:以此图来说明展示frontier©️【深蓝具身智能】编译

当所有frontier消耗殆尽,则说明所有区域都已经完成探索。

Mem2Ego5过从全局记忆模块中自适应检索与任务相关的线索,然后将这些线索映射到智能体的自我视角中进行观察,通过将全局上下文信息与输入的局部感知信息相结合,使智能体做出明智的行动决策。

MTU3D6一个将主动感知与三维视觉-语言学习相结合的统一具身导航框架,通过将未探索区域表示为frontier地图查询以及对物体定位与frontier选择的联合优化问题来实现定位与探索的统一。

相关阅读:

突破VLN难点!华为诺亚Mem2Ego革新长距离具身自主探索导航,3大记忆模块梳理+解析

登顶 ICCV 2025!清华大学提出统一具身智能导航框架:主动感知、三维视觉-语言理解

【硬核教程】从0实现VLN导航:以波士顿动力VLFM为例,原理+代码全面解析「视觉-语言」模型

路径规划与轨迹追踪/运动控制规划

当有了导航地图,机器人也能实时获取自身在地图中的位姿后,这时只需要解析用户的指令,得到目标位置的方位。

然后结合路径规划算法生成轨迹路径,由于场景并不复杂,因此一般传统的方法即可(探索类如A*、D*;采样算法如RRT;优化算法如MPC等)。

最后机器人不断追踪轨迹移动并实时调整,可以结合PID或MPC等控制方法进行实现。

资讯配图

例如在OpenBench方案中,导航模式下使用多级Dijkstra(MLD)算法进行路径规划:MLD通过利用分层图减少搜索空间,从而能够快速确定最优路径;探索模式下,将OSM转换为代价地图以便进行A*路径搜索,随后使用TEB进行轨迹跟踪

资讯配图

操作模块

当机器人到达目标位置,此时目标商品在机械臂抓取范围内时该如何控制机械臂正确抓取目标商品呢?需要如下步骤:

动作推理

动作推理环节核心在于:依据多模态大模型对用户意图理解后的决策结果,生成精确、可行的低级别动作指令,从而驱动机械臂完成对目标商品的抓取。

视觉特征经过前期的视觉处理模块,包含了目标商品的位置、形状、颜色等关键信息,这些信息以特征向量的形式呈现

用户指令 tokens 则通过自然语言处理模块转化为计算机可理解的语义表示。随后,将视觉特征向量与指令语义表示进行嵌入融合,形成一个统一的多模态输入向量。

这种融合并非简单拼接,而是通过特定的融合算法,使得视觉与语言信息能够相互补充、协同,为后续的模型处理提供更全面、丰富的信息基础 。

资讯配图

多模态大模型内部基于Transformer架构等先进技术,通过自注意力机制等运算,对输入信息进行深度处理。模型在大规模数据训练中学习到了丰富的 “指令-视觉场景-动作决策” 映射关系。

比如用户说 “抓取那个红色瓶子”,模型要结合视觉场景中红色瓶子的位置、姿态等信息,判断出抓取动作的大致策略,是从上方抓取、侧面抓取,还是需要先调整角度再抓取等。

动作推理模型可以选择Diffusion Policy,它通过概率扩散过程生成动作序列,能天然建模不确定性,提升复杂场景鲁棒性,尤其是在长时序抓取动作规划中表现出了优异的泛化性与数据效率。

资讯配图

说明:DexGraspVLA效果展示©️【深蓝具身智能】编译

DexGraspVLA7一个指令分成多个阶段的任务,对于每个阶段的任务,将多模态数据(用户提示、头部摄像头观测图像)输入到多模态大模型中,得到目标物体的边界框。

然后由Diffusion Policy预测出多步动作序列,然后采用滚动时域控制策略,即在生成新的动作块预测之前,仅执行前  个动作,以提高实时响应能力。

该方案在 “零样本” 环境下,面对数千种不同的物体、光照和背景组合,灵巧抓取的成功率高达90%以上

相关阅读:北大 | 首个通用灵巧抓取框架 DexGraspVLA代码+原理解析:零样本测试成功率高达90%

也可以选择结合LAM(Latent Action Model),学习商超场景下抓取商品的视角的特定任务通用策略,在结合低成本的动作解码器,轻松部署到各种机器人上。

其优势是通过“潜在动作”作为桥梁,实现跨场景、跨智能体的动作迁移,例如:

UniVLA8和智元的ViLLA9都采用了LAM,通过这种形式将连续图像投影到隐式动作空间,使隐式动作作为中间过程表征,从而弥合图像、文本输入到机器人动作之间的差距。

相关阅读:

AGI关键拼图!(附实现代码)智驾传奇团队再出手:UniVLA 打造机器人通用行动指南

稚晖君团队开源 | 100万轨迹、ViLLA架构,数据集+算法解析:复杂任务成功率提升32%!

资讯配图

总结

尽管上述模块中的各种算法在推动机器人VLA发展上取得一定成果,但仍存在诸多亟待解决的问题。

例如:在数据方面,存在数据量级和多样性不足的问题,训练 VLA模型的数据与纯语言模型相比差距大,且多来自简单环境,难以覆盖复杂真实场景,限制了模型环境适应能力。

因此,要让机器人VLA走向成熟,充分释放具身智能潜力,学术界和工业界需在这些关键问题上持续探索突破。

编辑|木木伞

审编|具身君


参考资料: 

1. CoWson PASTURE: Baselines and Benchmarks  for Language-Driven Zero-Shot Object Navigation. https://arxiv.org/pdf/2203.10421
2. Robotic-CLIP: Fine-tuning CLIP on Action Data for Robotic Applications. https://arxiv.org/pdf/2409.17727v1

3. ManipLLM: Embodied Multimodal Large Language Model for  Object-Centric Robotic Manipulation. https://arxiv.org/pdf/2312.16217

4. OpenBench: A New Benchmark and Baseline for Semantic Navigation  in Smart Logistics,https://arxiv.org/pdf/2502.09238

5. MEM2EGO:EMPOWERING VISION-LANGUAGE MODELS WITH GLOBAL-TO-EGO MEMORY FOR LONG HORIZON EMBODIED NAVIGATION. https://arxiv.org/pdf/2502.14254

6. Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for  Efficient and Versatile Embodied Navigation. https://www.arxiv.org/pdf/2507.04047

7. DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping. https://arxiv.org/pdf/2502.20900

8. Learning to Act Anywhere with  Task-centric Latent Actions. https://arxiv.org/pdf/2505.06111

9. AgiBot World Colosseo: Large-scale Manipulation Platform  for Scalable and Intelligent Embodied Systems. https://agibot-world.com/blog/agibot_go1.pdf


>>>现在成为星友,特享99元/年<<<

资讯配图

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇

资讯配图
1、没有灵巧手的机器人只是“半成品”|WRC现场12家灵巧手企业,“最后一厘米”霸权
2、全面优于π0 !全球首个端到端全身控制VLA模型G-0全面开源,直击七大“关键问题”
3、盘点:从Nature子刊到 5 大机器人顶刊!西湖大学MiLAB最新发布的 12 篇硬核成果

【研发/硬件需求】咨询


💪致力于解决各类研发、硬件、人才需求。机器人、自动驾驶、无人机等研发硬件,研发合作、企业内训、高校建设、人才内推等具身智能行业综合方案。

商务合作扫码咨询


资讯配图

机器人、自动驾驶、无人机等研发硬件

资讯配图


关于我们:深蓝学院北京总部于2017年成立,2024年成立杭州分公司,2025年成立上海分公司。


学院课程涵盖人工智能、机器人、自动驾驶等各大领域,开设近100门线上课程。拥有多个实训基地助力教学与科研,多台科研平台硬件设备可供开展算法测试与验证。


服务专业用户数达11万+(人工智能全产业链垂直领域的高净值用户),硕博学历用户占比高达70%。已与多家头部机器人企业、头部高校建立深度合作,深度赋能教育 、企业端人才培养与匹配。


工作投稿|商务合作|转载:SL13126828869


资讯配图

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

转载 | 工作投稿 | 商务合作请添加:SL13126828869


资讯配图

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
《Science Robotics》发表哈工程新成果:电液驱动软体机器人解锁深海探测新路线!
临水建筑外墙易脏且难清洗,万勋P3机器人轻松破解难题
芯联集成:AI眼镜用麦克风芯片、机器人用激光雷达芯片已实现突破
圈粉全场!强脑科技亮相2025世界机器人大会,脑机接口技术再登《新闻联播》
【8.21】60+资源方企业齐聚!第七届国际移动机器人大会启幕在即!
上海交通大学高峰:机器人的核心是机构学,不要过度追捧AI 通用机器人并非发展最优解!
技术拆解 | Galbot闭环控制实战,从感知到指令理解、决策,如何实现机器人的精准操作
又一位华为大佬入局具身智能机器人赛道创业,已完成首轮融资!
消息称理想汽车撤销五大战区架构,任命新销售负责人;两部门拟严管:OTA升级须备案;消息称苹果正研发一款桌面机器人
太极演绎+服饰走秀,乐聚夸父亮相2025世界人形机器人运动会
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号