无遥操、全自主的机器人距离走进人类生活到底还有多远? 作者 | 许丽思 编辑 | 漠影 机器人花式后空翻、拳击、拟人化奔跑、跳舞......这些高难度炫技已经让人见怪不怪,进工厂干分拣、组装、巡检也越来越多,有时候容易让公众觉得,机器人看上去很聪明能干,距离走进日常生活不远了。 但把视角从屏幕拉回到产业现场,画风却不太一样。行业整体处在试点多、规模化少的早期阶段,多数项目仍停留在实验室demo和展会秀场,技术路径、商业模式都还在探索,真正能落地的少之又少。 这种观感上领先、应用上滞后的强烈反差感,不由得让人追问,无遥操、全自主的机器人距离走进人类生活到底还有多远? ATEC2025赛事专家委员会主席、香港工程院院士刘云辉教授提出,机器人有三大核心能力,行走、操作、改造环境。这也是判断机器人能否适应真实环境的重要依据。再具体一些,从机器人完整的“感知-决策-执行”的流程上来看,机器人需要准确感知真实环境,进行全自主决策,并完成最终的长链条任务执行。 问题是,这些能力在今天的机器人身上,究竟到了哪一步?行业需要一个尽量接近真实又能公开观察的窗口。 近日,第五届ATEC科技精英赛构建了一套真实世界适应力测试框架,比赛由香港中文大学主办,ATEC前沿科技探索社区、北京大学、北京师范大学、蚂蚁集团联合承办,专家评审阵容包括刘云辉、谢立华、Masayoshi Tomizuka等多位国际知名机器人学者。 赛事在全户外场景下考察行走、操作、改造环境等多项能力,来自全球的13支顶尖赛队完成了吊桥穿越、定向越野、自主浇花与垃圾分拣等系列任务。 就像蚂蚁集团技术战略部负责人所说,“设计的每一道题,都不是为了让它‘完成得好看’,而是为了让它在碰撞中暴露真正的弱点。因为如果问题不是真实的,就不会牵引出真实的技术进步。只有“真问题”,才能让行业知道下一步要突破什么。” 01. 拒绝标准化环境, 机器人须进入非结构化的真实场景 当前,多数机器人技术验证,基本都是在灯光可控、地面平整、障碍物规则的标准化环境中。 结果就是,这种设置屏蔽了真实世界的大量不确定性,就算取得不错的表现,也难以拓展到其他场景的应用中。这是在判断全自主机器人能否进入人类生活场景时,最先被标准场地抬高预期的第一个维度——环境感知能力。 感知到底难在哪?对机器人来说,要求它能习惯各种乱七八糟的光影、背景和杂物,能实现多模态信息融合,还要在目标和环境不断变化的情况下,保持输出稳定。 ATEC2025赛事组专家、香港中文大学(深圳)理工学院助理教授钟仿洵提到,“真实环境里最大的问题是不确定性和高动态性,你看到的不一定是真的。”机器人必须具备识别并处理感知信息中“不确定性”的能力,这是实现高级自主的前提。 垃圾分拣就是一个很典型的例子,这样的任务尤其注重机器人的环境识别能力:垃圾类型、材质、形状都各不相同,还可能有污渍、遮挡、随意堆叠。同一个物体只要在堆叠顺序、污渍上变一下,在实验室里训练出来的识别能力很可能一下子就无法正常工作了。 多支赛队在采访时提到,实验室里的精准识别,到了真实场景可能瞬间失效。比如,比赛当天,香港大晴天的太阳光线非常强烈,香蕉皮在被反复抓取后发生不可回弹形变;实验室采集的桌子数据完全不适用,现场桌子反光影响了激光相机点云;透明物品比如矿泉水瓶由于反光等原因,导致多台机器人识别失败;有的机器人垃圾还没抓取到,就急着往垃圾桶走...... 这与很多机器人应用试点中,换一个工位、灯光,应用效果就大打折扣的情况高度相似。它们指向的都是同一个行业事实:机器人在真实环境的感知能力,是可大规模部署的基本前提。 在运动场景中,类似的问题同样存在。定向越野比赛,复杂蜿蜒的林间小路光影摇曳,树荫和坑洼不断交错,机器人必须判断眼前的暗块到底是可以踩上去的土路,还是需要回避的坑洼,需要感知系统可靠估计地形、识别可通行区域。 刘云辉教授表示,这类任务强调是在自然场景下测试运动能力和环境识别,在一些有限引导下,看看机器人能不能通过实时反应克服障碍、爬山涉水。 作为冠军选手的浙大Wongtsai团队称,面对复杂的真实环境,他们在Isaac LAB中搭建了一个尽可能还原比赛场景的环境,甚至专门对RealSense相机的噪声,比如双目视差、散斑投射、纹理缺失等问题进行模拟。这种“仿真到真实”的闭环设计,让他们的四足机器人成为首个全自主跑完全程定向越野的参赛选手。 行业正加快从标准场地可用走向真实场景可用,真实环境是机器人走出Demo、能在更多场景复制落地的必修课。 如果机器人能学会全自主垃圾分拣,解决了背后复杂视觉感知、多材质物体识别、稳定抓取上的长期难题,就有望在工厂、环卫、物流等“脏乱差”场景应用;如果机器人能自主完成定向越野,就能解决未来在园区巡检、户外勘探、灾害救援等复杂地形场景中遇到的真实难题。 02. 摆脱人类遥控, 机器人大规模落地需要自主决策 现在,我们看到的许多炫酷的机器人能力展示,很多都是由人类操作员遥控操作,机器人更多扮演远程操作平台,而非具备真正决策能力的智能体。这种机制,在产业发展早期,确实能够更快速验证机器人能力、收集数据、积累经验等。 但是,机器人的表现很大程度上来自人类的经验判断和临场操作,是人脑在替机器人的大脑工作,容易掩盖了机器人在感知、决策等的短板,难以真实反映其在无人干预下的表现。这是在判断全自主机器人能否进入人类生活场景时,最容易被遥控表现美化的第二个能力——决策自主性。 一些头部公司已经做出调整,以特斯拉Optimus为例,年中,其宣布放弃了传统遥控操作学习的方式,之后,马斯克10月发表对Optimus功夫视频的评论:“是AI,不是遥控”,这都说明,无遥控已经成为具身企业未来发展的清晰共识。 全自主、无遥操是行业发展的重要趋势所在,赛事通过评分规则,明确奖励无遥操的参赛选手。但这也极具挑战性,浙大Wongtsai团队的队长朱承睿形容,从人类远程遥控操作到自主控制,大概是蒸汽机时代到电气化时代的飞跃。 吊桥穿越任务中,机器人需要通过三种不同间距的桥面段,自主识别桥面结构,决定是否需要借助工具通过、是否拉绳搭桥等。有的选手给机器人装上宽大的“脚底板”,避免穿越过程中被缝隙卡住;有的机器狗通过跳跃绕开缝隙,还省略了拉绳搭桥的步骤。 在刘云辉院士看来,这类任务的核心是决策与规划,因为桥板位置不一样,机器人要自己做思考、做决策,比如拿起板来填充,从而改变环境,适应自己的运动。这是包含了环境评估、工具使用、任务规划的高级智能行为。 港中文CUMAE团队谈道,比赛中的不同任务对机器人的硬件和AI能力有不同要求,AI和机器人的发展应在一个大系统里相互配合、发挥优势,而不是彼此单独发展,这给了团队在未来解决类似问题的一个思路。 目前,机器人在小脑的运动控制与运动性能进步飞快,但在大脑部分的AI能力还很基础,不少业界人士都曾表示,AI能力不足也导致了机器人没能真正大规模落地。 随着行业向规模化落地迈进,全自主能力必然会成为机器人企业的核心竞争壁垒,也是机器人从“工具”迈向“伙伴”的核心标志。 03. 不止单一能力, 机器人需要稳定跑完一整条长程任务链 即使感知、决策能力都过关,机器人能否进入人类生活场景,还取决于第三个维度:能不能稳定执行具有一连串复杂动作的长程任务链,而不是只完成某一个精彩动作。 不少演示都是通过遥控来实现对机器人单一动作能力极限的展示,但是在仓储拣选、园区巡检、灾害救援等真正应用场景中,机器人需要完成的是具有多个步骤的长程任务链。 家庭场景也是如此,叠衣服、浇花、洗碗、收纳等也是长程任务,以家庭浇花这样看似小事的精细任务为例:机器人需完成取水壶、接水、走到花盆前、控制浇水、再归位的全流程,水壶重量和重心在过程中持续变化,这考验的是从感知、规划到力控、步态协同的一整套能力。 在ATEC的自主浇花任务中,这种系统性挑战被直观呈现:有的机器人在拿起水壶后频频摇晃、对不准浇花位置等,需要多次调试,人工多次干预;少数队伍能完成全流程,但往往速度较慢。这些场景与现实中“机器人总是要人去救场”的情况非常相似。 “VLA模型有一定的泛化能力,但它只能理解图像和语言指令,无法将这些指令与真正的物理交互相对应,在物理世界的理解和交互能力方面存在不足。”浙大Wongtsai团队说。最终,团队还是选择了传统的视觉识别+机械臂规划的方案。 北理工CyberPrime团队提到,自主浇花任务难以全自主完成的原因主要有两方面:硬件上,传统高精度机械臂重量大、速度慢,搭载在四足机器人平台上不稳;软件上,操作算法泛化能力有限,实验室用少量道具训练的策略,到了比赛现场完全不适用。在他们看来,机器人走入生活,硬件运动能力没问题,主要瓶颈在于操作精度、安全性和自主性,这也是实验室未来几年主要攻破的方向。 这也揭示了具身智能正面临的处境:各种模型、算法看上去很聪明,但一落到具体机器人的执行层面上就处处受限,软硬件脱节;机器人下半身能够顺利移动,但是上半身操作环节却格外吃力。更严格地说,即便能跑起来,在长时间、多轮次、多场景的任务链下,它们也很难保持一贯的稳定性和可维护性。 未来,真正落地的机器人产品,必须要面对长程任务链这道坎,重视系统可靠性、任务完整性实现移动与操作的统一。 04. 结语:真实世界“翻车”很正常, 是具身智能落地的必经之路 两天的比赛看下来,任务挑战大,全自主太难,机器人翻车情况确实存在。 不过,刘云辉院士觉得,翻车很正常,也是一个进步,至少把机器人拿到场景下测试了,失败也是一个结果,但能够给到反馈,让开发者反思哪里做的不够好、技术应该怎么改进。“我觉得你没有失败,其实就永远不可能有成功的一天。” 针对户外复杂场景,各参赛队伍尝试了多样化的技术路径与创新方案:有的团队将传统模块化算法与前沿的端到端大模型方案并行测试,寻找稳定性与智能化的最佳平衡;有的为应对吊桥的动态晃动,设计出轻量化控制与实时环境建模相结合的独特策略。这些充满创造力的技术探索,为机器人场景落地积累了宝贵实践经验。 不少参赛选手在采访中都提到,ATEC的比赛设置贴近现实场景,对技术发展来说具有更实际的意义。他们基本都怀抱着强烈的使命感,期待着机器人未来更多地去完成人类无法完成的工作,让机器人去承担人类危险的工作,这种真实世界极限挑战就是通往那条路的起点。 具身智能要从风口上的故事变成基础设施,需要一套能经得住时间考验的测试场和评价体系。 几年后回头看,这场没那么多“爽感”的基于真实场景的大赛,或许正是这套体系的早期雏形。