一个模型适用任何场景?!美国具身独角兽Skild AI推出基于视觉的端到端运动技术

头部科技 2025-08-07 20:00
资讯配图
资讯配图
文丨丁灵波

近些年来,我们见过很多人形机器人完成令人惊叹的杂技动作,比如侧空翻、前/后空翻以及酷炫的舞蹈、格斗表演等等。

然而,还没有机器人能在陌生环境中可靠地攀爬任意类型的楼梯或跨越复杂障碍,这是莫拉维克悖论的典型例子:对人类而言轻而易举的事情,对机器人来说却困难重重,反之亦然。

以爬楼梯为例,机器人需要视觉感知和运动控制之间的精密协调,动态适应台阶高度和几何形状的变化,相比之下,杂技和舞蹈动作通常在空旷空间中完成,且往往无需视觉输入即可执行,仅依靠本体感觉和内部运动感知即可。

资讯配图
今天,来自美国的一家具身智能独角兽公司Skild AI抛出一项新技术:基于视觉的端到端运动模型。
Skild AI成立于2023年,其核心团队由卡内基梅隆大学(CMU)前教授Deepak Pathak和Abhinav Gupta联合创立,两人在机器人与人工智能领域深耕超25年,累计论文引用量超9万次。截至目前,该公司已完成多轮融资,估值达40亿美元,背后的投资方包括软银、红杉、英伟达、亚马逊、三星等。
资讯配图
机器人通用大脑创新
Skild AI的技术路径是试图构建一个不断改进的、无所不能的通用机器人大脑,可以控制任何硬件执行任何任务。
这点和特斯拉基于视觉的FSD自动驾驶异曲同工,Skild AI团队开发了基于视觉的通用机器人模型Skild Brain,通过摄像头图像和关节反馈直接控制机器人动作,无缝调整机器人行为,无需硬编码。
Skild Brain采用了分层架构:用低频率的高层动作策略为高频率的低层动作策略提供输入,而且适用于各种四足机器人、人形机器人、桌面机械臂、移动机械手等。
在本次发布中,该团队主要展现了Skild Brain的低层控制能力——这种能力可实现完全由在线视觉和本体感觉驱动的端到端运动控制。
资讯配图
这种单一神经网络使人形机器人能够无缝地在平地上行走、爬楼梯和跨越障碍物,无需任何规划、映射或手动切换行为,实时适应台阶高度、形状和几何形状变化,此前对于机器人来说很具挑战性,现在可以轻松完成。
人类能够轻松穿越复杂地形并非依靠绘制地图和预先规划每一步,而是依靠双眼观察即时做出反应,现在机器人也可以了。
资讯配图
Online Vision的多功能性
借助摄像头图像,Skild Brain模型能对机器人周围的场景做出动态反应,每一步动作都是即时决策的,这使得模型能基于最新的观测信息,本能地适应新地形。

Skild Brain的高层动作部分可以给出大致的行进方向,机器人会自主规划如何穿越障碍物。

为测试这种适应性,研究人员搭建了一个障碍赛道,包含不稳定的托盘、缝隙、高低不平的台阶和杂乱物品,机器人此前从未见过这些障碍物,其所有动作也都不是预先规划的,面对每个新障碍物时,模型都会即时调整足部落点、平衡和时机,以适应每种地形特征。

资讯配图
该模型还有一个突出特点:它不仅稳健,还兼具适应性与流畅性,不存在所谓的“楼梯模式”或“跨越模式”,行走行为之间的转换平滑、连续且自然,就像人类一样,步态会根据机器人的所见所感流畅切换,而非在一套固定的行为模式之间生硬转换。
资讯配图
此外,精准的“步伐”,即使楼梯深度仅比机器人的脚深3厘米,该模型也能确保机器人将脚精确放置在正确的位置,无需犹豫或减速,还可以搬运箱子上下楼梯。
资讯配图
当机器人在楼梯上受到较大的外部推拉力时,它也能够迅速调整立足点并保持平衡。
资讯配图
资讯配图
打破机器人领域的“悖论”
英伟达机器人部门主管兼杰出科学家Jim Fan就曾提到机器人领域的莫拉维克悖论:“对人类来说很难的体操,对机器人来说却比烹饪、清洁和组装等不吸引人的任务容易得多,这导致业内人士产生认知失调,机器人可以跑酷和霹雳舞,但为什么它们不能照顾我的狗呢?”
资讯配图
这种悖论也造成了一种错觉,让人觉得物理AI的能力远超其实际水平,Jim Fan表示并非单单针对Unitree等厂商,可以做一个简单的测试:如果你在侧翻机器人面前架起一堵墙,它大概率会全力撞上去,造成一场奇观,因为它只是对单一参考动作进行了拟合,而不会意识到周围环境的变化而及时调整动作逻辑。
资讯配图
悖论存在的原因在于:训练一个“盲人体操运动员”比训练一个能看能操作的机器人容易得多,前者可以在模拟中完全解决,并零样本迁移到现实世界;而后者则需要极其逼真的渲染、接触物理以及现实世界中复杂的物体动力学——所有这些都无法很好地模拟。
不过,如今的机器人专家是幸运的,当前恰好正处于一个加速物理引擎如此强大的世界,以至于我们几乎不用任何真实数据就能做出令人印象深刻的杂技表演,但Jim Fan表示,我们还没有找到同样的通用灵巧技能秘诀。
资讯配图
Skild AI团队认为,许多研究人员和竞争对手选择回避了关键问题:从现有的视觉-语言模型(VLM)入手,再掺入不到1%的真实世界机器人数据,就号称构建出了“机器人基础模型”,但这是真正的机器人基础模型吗?答案是存疑的。在Skild AI,他们正在通过大规模仿真和网络视频数据来预训练“通用躯体大脑”,再利用针对性的真实世界数据对这一基础模型进行微调训练。
据悉,这种训练AI模型的方法使机器人能够根据周围世界的情况变化及时调整自己的动作,不仅适用于类人行走,也适用于在不同类型的机器人上训练各种类型的机器人行为。

-END-

资讯配图
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信。
【2025免费新年礼】:了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会,领取100份AI科技商业研报合集,加群共同探讨与成长——
扫描下方二维码,添加头部科技晶总微信!
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
WAIC 2025思辨会七 | 强化学习是否是开启决策智能的“黄金钥匙”?
能认主、可养成独特性格,卡西欧AI宠物机器人Moflin日本销量超预期
当马斯克“AI版Vine”撞上Veo 3,谁更胜一筹?
如何用AI破解零售出清难题?【502线上同行】
金融圈天价抢AI人才?交大高金硬核EMBA上线,扫码申请最高全额奖学金
他救了OpenAI、年赚过亿、三家明星CTO,却自曝跟不上AI发展了!硅谷大佬告诫:不是马斯克,就别碰大模型
GPT-5发布时间定了,图标版本曝光/大疆发布首款扫地机器人/马斯克Grok4或称霸AI象棋大赛
园区AI指挥官来了!让管理效率悄然升级
谷歌推出「学习辅导」,又一大型AI实验室推出了教育模式,Gemini变身苏格拉底,目标是重塑你的思考方式
嵌入式工程师必备的三种AI开发利器
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号