
Figure 公司近日展示了其人形机器人 Figure 02 的一项功能突破:全自主折叠衣物。
这款机器人所使用的,是与先前在物流领域工作的机器人完全相同的 Helix
模型。
它的底层架构和超参数都未作任何修改,成功的秘诀仅仅是注入了全新的数据。
当灵巧双手遇上柔软织物
对于机器人而言,折叠衣物是一项极其艰巨的挑战。因为它需要处理形态不定的可变形物体。
织物会产生自我遮挡,机器人必须持续不断地重新抓取,这极其依赖精细、实时的触觉反馈。这些难题,让传统的刚性物体模型完全失效。
这背后是著名的莫拉维克悖论:
“机器人能轻松完成精确计算的杂技,却在爬楼梯、做家务等简单任务上举步维艰。
因为真实家庭环境需要的,是复杂的感知能力和灵巧的双手,而这比抽象推理更难实现。
这次的成果恰好印证了此悖论。毛巾随时变形,抓握点不断移动,任何微小的失误都可能前功尽弃。机器人需要极致的指尖控制力,才能实时追踪边缘、捏合角落、抚平织物。
Figure 的 Helix
模型是一个视觉语言动作模型,它将摄像头图像和人类指令,直接转化为机器人的具体动作。
它以端到端的方式运行,不依赖任何物体级别的几何模型。因此,它能直接从真实案例中学习,而不是依赖死板的布料模型。
凭借全新的数据集,原本只会搬箱子的神经网络,现在学会了从一堆衣物中精准拾取、动态调整策略、从失误中恢复、理顺边缘并最终完成折叠。
这正是在同一个人形机器人上实现的「纯数据驱动式」的能力迁移。
通向家用机器人的路径
在我看来,莫拉维克悖论的本质依然成立。人类拥有数百万年演化出的、连接着高速感知和指尖控制的神经网络,机器人则没有。
但我们必须看到,这一差距正在快速缩小。
端到端的策略,加上大量真实世界的轨迹数据,正在为机器人处理可变形物体、应对杂乱场景和执行恢复操作的可靠性奠定基础。
这与谷歌 DeepMind 的 RT-2
等前沿模型所遵循的思路一致:将视觉和语言直接映射为行动,让控制器去内化那些传统编程逻辑难以描述的复杂细节。
早年在伯克利大学的折叠机器人,处理一件衣物需要数分钟,这作为技术演示尚可,却远不具备实用价值。
如今,Figure 的成就揭示了一条新路径:将机器人的灵巧性,视为一个可以通过数据解决的学习问题,而非一个需要手动设计的工程难题。
未来的障碍主要在于提升速度、覆盖更多边缘场景,以及在不同面表和环境下保持稳定的成功率。
这些都需要更多的数据、更灵敏的触觉反馈和更低延迟的控制系统来解决。这需要的是稳步的工程推进,而非魔法般的奇迹。
此外,Figure 机器人也在不断扩展其与人类的自然交互能力。Helix
模型已学会在与人互动时,保持自然的眼神接触、进行目光交流,并使用习得的手势。
参考资料:https://x.com/Figure_robot/status/1955290971660251220
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!