字节提出Robix大模型!三阶训练+统一架构,打破机器人认知瓶颈,真实场景任务完成率领先

机器人大讲堂 2025-09-20 17:41

在现代机器人技术的浪潮中,我们似乎总离那个理想中的“家庭机器人”还差一步。它们能看、能听,甚至能跑能跳,却依然难以在真实的家庭、商场或街道中像人类一样应对自如。哪怕硬件再先进、感知再敏锐,一旦置身于开放、多变的环境中,机器人往往显得笨拙、迟疑,甚至像是社恐”附体。

 


资讯配图


究其原因,并不全在机器人的“手脚”,更在于“大脑”。


当前大多数机器人系统采用分层架构:高层负责思考(比如用大语言模型做任务拆解),底层负责执行。问题就在于,这些所谓的“大脑”——比如大语言模型(LLM)或视觉-语言模型(VLM往往只擅长分解任务,却在面对物理世界的空间关系、位置感知,或是人类的实时打断、多轮对话时,表现得捉襟见肘。


更直白地说,现有的机器人系统缺乏一种真正意义上的“智能”:它们无法像人一样,在动态环境中同时进行理解、推理、回应和行动。


而最近,字节跳动Seed团队推出的Robix,试图从根本上重新设计这个“大脑”。


资讯配图


Robix统一模型架构:告别机械式应答


Robix作为一个统一的视觉-语言模型架构与传统分层系统将机器人推理、任务规划和自然语言交互割裂为独立模块不同核心突破在于将三者无缝整合于单一模型中,作为机器人的高层认知中枢。这种设计摒弃了模块化框架固有的刚性缺陷,使机器人能够像人类一样,在动态环境中实现“理解-决策-响应”的闭环。


在核心架构上,Robix处于分层机器人系统的高层认知层负责解释任务并对多模态输入进行推理,从而生成语言响应和行动计划;而低级控制器(通常是视觉-语言-动作 (VLA) 模型)则负责执行 Robix 生成的原子命令。这种分层设计使机器人能够与人类和物理环境无缝交互。


资讯配图


也就是说,Robix的系统中,每一次交互都是一个“感知-推理-响应”的闭环。它直接读取机器人摄像头的画面和用户的语音指令,在此基础上进行多模态推理,然后自主选择是否生成底层控制指令(比如“向右转”“拿起水杯”),同时给出语言回应(比如“好的,我现在就拿给你”)。这种设计使Robix能够实现真正意义上的“边想边做”,甚至支持在任务中被随时打断、插入新指令、进行多轮对话——就像人类之间的协作一样自然。


Robix基于Qwen2.5-VL模型构建,但其训练过程远不止“调参”那么简单。团队为其设计了一套三阶训练路径,总数据量超过2000亿token,每个阶段都目标明确、数据精心设计。


第一阶段是持续预训练,专注于打好具身基础在这个阶段,Robix重点强化对物理世界的理解能力,训练数据涵盖3D空间理解、视觉定位、任务中心推理和通用多模态推理。这些都是机器人真正走入现实世界所必需的常识,比如判断物体距离、理解“手机在桌子的左前方”这样的空间描述,以及进行任务逻辑推理


资讯配图

Robix预训练数据概览


第二阶段是有监督微调,旨在让Robix学会与人协作。研究团队通过合成大量人机交互数据,教Robix如何扮演一个“听话且聪明”的机器人助手。训练场景包括多阶段指令、带约束的任务、开放式指令、随时打断、无效或模糊指令的处理等。这些数据被转化为逼真的交互轨迹,让Robix不仅会规划,更会“沟通”。


资讯配图


第三阶段是强化学习,主要解决模型可能出现的“推理不合理”和“决策与动作脱节”问题。研究团队采用了一种称为GRPOGroup Relative Policy Optimization) 的方法,通过奖励机制引导模型输出更合理、更符合物理常识的行为。这一步确保了Robix不仅在理论上表现优异,在实际执行中也能够可靠、稳定。


这种阶梯式训练路径确保了Robix在保留通用多模态能力的同时,精准适配机器人高层认知的特殊需求。


▍实验结果:多维度验证突出性能优势


研究团队通过基础推理、离线规划、在线真实场景多维度实验评估Robix 的能力,对比模型包括Qwen2.5-VLGemini-2.5-ProGPT-4o等知名模型。结果表现非常亮眼。


在基础推理任务中,如3D空间理解、视觉定位等,Robix-32B全面领先,显示出其强大的物理世界认知能力。在离线规划任务中,Robix-32B-RL在分布内和分布外任务中均排名第一,尤其在陌生任务中比Gemini-2.5-Pro高出3.011.8%,体现出优秀的泛化能力。


资讯配图


在真实场景测试中,如餐桌清理、购物助手、饮食筛选等,无论是人遥操作还是搭配自动控制器,Robix都实现了高完成率与低延迟响应。这说明,Robix不仅“学得好”,更能在真实世界中“做得好”,成为一个真正实用的机器人认知系统。


资讯配图


结语


Robix的出现,也许标志着机器人高层认知设计的一个转折点。其统一架构告别了模块之间的僵化与脆弱,用一个模型搞定推理、规划、交互;其灵活交互特性支持主动对话、实时打断、动态调整,更适合开放环境;其强大泛化能力即使在没见过的任务中,依然表现稳健。


但它还有进步空间。在高频切换的场景中偶尔会出现推理错误或常识偏差;目前的记忆机制还难以支持长达数小时的交互,比如整理整个超市货架。团队也表示,接下来将重点攻关动态场景的鲁棒性和长时记忆架构


在动态场景鲁棒性方面,目标是让机器人在家庭、零售等真实场景中,面对人员流动、物品摆放变化等复杂情况时,依然能稳定、准确地执行任务。在长时记忆领域,需要帮助机器人更好地记住长时任务的目标、中途的指令以及过往的操作,从而更出色地完成长时间的家庭清洁、零售店铺货物整理等长周期任务。


随着动态鲁棒性和长时记忆等短板的补齐,机器人将不仅局限于实验室或受限环境,而是真正走进家庭、商场、街道,成为人类日常生活中的可靠伙伴。


如需咨询企业合作事宜,欢迎联系机器人大讲堂-客服(19560423866,手机与微信同号)进行对接。


----------------END-------------------

资讯配图



工业机器人企业

埃斯顿自动化 | 埃夫特机器人 | 非夕科技 | 法奥机器人 | 越疆机器人 | 节卡机器人 | 松灵机器人 | 珞石机器人 盈连科技 集萃智造 | 优傲机器人 | CGXi长广溪智造 | 阿童木机器人 极智嘉

服务与特种机器人企业

亿嘉和 | 晶品特装 | 七腾机器人 史河机器人 | 九号机器人 | 普渡机器人 | 小笨智能 | 机器姬

医疗机器人企业

元化智能 | 天智航 | 思哲睿智能医疗 | 精锋医疗 | 佗道医疗 | 真易达 | 术锐®机器人 | 罗森博特 | 磅客策 | 柏惠维康 | 迪视医疗 | 水木东方

人形机器人企业

优必选科技 | 宇树 | 云深处 | 星动纪元 | 伟景机器人 | 逐际动力 | 乐聚机器人 | 大象机器人 | 中科深谷 | 魔法原子 | 众擎机器人 | 帕西尼感知 | 赛博格机器人 | 数字华夏 | 理工华汇 | 傅利叶智能 | 天链机器人 | 开普勒人形机器人 | 灵宝CASBOT | 清宝机器人 | 浙江人形机器人创新中心 | 动易科技智身科技 | PNDbotics

具身智能企业

跨维智能 | 银河通用 | 千寻智能 | 灵心巧手 | 睿尔曼智能 | 微亿智造 | 推行科技 | 中科硅纪 | 枢途科技 | 灵巧智能 | 星尘智能 | 穹彻智能 | 方舟无限 | 科大讯飞 | 北京人形机器人创新中心| 国地共建人形机器人创新中心 | 擎朗智能 | 戴盟机器人 视比特机器人星海图 月泉仿生 | 零次方机器人

核心零部件企业

绿的谐波 | 因时机器人 | 坤维科技 | 脉塔智能 | 青瞳视觉 | 本末科技 | 鑫精诚传感器 | 蓝点触控 | BrainCo强脑科技 | 宇立仪器 | 极亚精机 | 思岚科技 | 神源生 | 非普导航科技 | 锐驰智光 | NOKOV度量科技 | 因克斯 | 褔德机器人 | 巨蟹智能驱动 | 微悍动力 | 凌云光 元客视界 璇玑动力意优科技| 瑞源精密 | 灵足时代 Xynova曦诺未来 | HIT华威科

教育机器人企业

硅步机器人 | 史河科教机器人 | 大然机器人

加入社群

欢迎加入【机器人大讲堂】读者讨论群, 共同探讨机器人相关领域话题,共享前沿科技及产业动态,添加微信“robospeak2018”入群!


资讯配图
资讯配图



看累了吗?戳一下“在看”支持我们吧

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
协作机器人鼻祖,宣告第二次倒闭!
Open AI “自曝家丑”!证实机器人训练的真相,承认AI大模型一直在“撒谎”
"应用场景落地”——人形机器人规模化应用的突破口
【机器人】3年1000台!全球半导体显示产业首次迎来具身智能机器人
【机器人】孙志强:瞄准“卡脖子”领域瑞松科技发力高精高速机器人新赛道
被嘲像“爷爷”的机器人背后,这一行业以半价推动11倍增长
让机器人拥有“触感”?中国团队研发“电子皮肤”,开启人机交互新纪元
宇树科技冲击IPO:能否成为机器人界的“华为”?
ADI “激活边缘智能 共绘具身未来” 人形机器人分享会:聚焦技术突破与产业落地
谐波减速器头部企业获2000万元投资;电机上市公司拟募资超10亿元加码机器人关节模组 | 一周资本大事件
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号