具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图1

实习生看几遍演示就会的复杂操作，机器人读百页说明书却仍不知从何下手。这道鸿沟的核心，藏在人类 “想象未来” 的能力里 ——

我们观察时，会同步预判下一步动作、物体动态和目标状态，而非机械模仿。

近期，香港科技大学（广州）与香港大学团队提出Super-Mimic 框架，让机器人从 “看人类做事” 升级为 “想自己该怎么做”：

无需依赖语言指令或精细标注数据，只需观看演示视频，就能在脑中 “预演” 操作过程。

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图2

为什么这件事很难？

机器人执行长时序操作（long-horizon manipulation）一直是具身智能领域的难点。

因为这类任务不只是“抓个物体”或“按个按钮”，而是需要连续决策、上下文理解和对未来结果的预测。

比如“清理一张桌子”这个任务：人类只需要扫一眼桌面就能规划顺序——先移走杯子，再叠书本，最后擦桌布。

但对机器人而言，这是一连串没有明确界限的复杂动作，每一步的终止条件、物体关系、约束条件都模糊不清。

以往的强化学习或模仿学习方法，往往依赖固定脚本或逐步监督，一旦环境稍有变化，模型就“懵圈”。

而 Super-Mimic 的目标，是让机器人像人一样——在观察人类演示时，自己构建“未来的想象”

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图3

▲图1｜这张图概括了 Super-Mimic 的核心理念。它不再只是简单地模仿人类动作，而是能在零样本的条件下，根据人类演示灵活修改任务、迁移新技能，无需任何特定任务的数据训练。换句话说，机器人不只是“学动作”，而是开始理解“为什么要这么做“©️【深蓝具身智能】编译

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图4

看懂→想象→行动

这篇论文提出了 Super-Mimic 框架——

一套让机器人具备“视觉理解、未来想象与动作执行”能力的系统。

它的目标不是简单模仿人类的行为，而是让机器人在观察人类演示时主动推理：“人类为什么要这样做？我如果去做，接下来会发生什么？”

整个框架由三个主要部分组成：HIT（Human Intent Translator）、FDP（Future Dynamics Predictor）和 Action Executor，共同形成了一个从“观察—想象—执行”的具身智能闭环。

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图5

▲图2｜这张图展示了 Super-Mimic 的整体流程。©️【深蓝具身智能】编译

首先，HIT 模块利用视觉语言模型（VLM）将人类演示转化为可适配的符号化计划，使机器人能够在模仿之外进行任务调整与技能迁移；
接着，FDP 模块通过视频生成模型“想象”当前子任务的未来执行过程，预测环境的合理变化；
最后，Action Executor 模块根据想象结果生成具体的机器人动作序列并执行。

每个子任务完成后，系统会更新环境观测并重新进入“规划—执行”循环，实现持续的自我推理与调整。

HIT：看懂人类的“意图逻辑”

HIT 模块的任务，是把连续、无脚本的人类演示视频，翻译成机器人能够理解并执行的任务计划。

不同于传统动作识别，HIT 关注的不是“做了哪些动作”，而是这些动作之间的逻辑因果关系。具体做法是：

系统首先利用 MediaPipe 追踪人类手腕的运动轨迹，并根据速度阈值筛选关键帧，提取出视频中最具语义意义的“关键动作”；
这些关键帧随后被输入到视觉语言模型（VLM），由模型解析并抽象为结构化的任务步骤；
最终输出一个由多个子任务组成的符号化计划。

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图6

▲图3｜HIT整体框架©️【深蓝具身智能】编译

例如：

Subtask 1: Put the green apple into the basket

Subtask 2: Put the pink peach into the trash bin

当用户提供额外语言约束（如“把桃子丢掉”）时，HIT 会修改生成的子任务计划，从而实现任务调整或技能迁移。

这种机制使机器人不仅能模仿动作，还能理解并适应任务意图。

FDP：想象未来的“物理结果”

理解意图之后，机器人还需要预测动作的物理后果——这正是 FDP（Future Dynamics Predictor）的作用。

FDP 利用一个预训练的视频生成模型 Wan 2.2-Lightning，在当前视觉观测和子任务目标的条件下，生成短视频来“想象”任务执行后的未来场景。

接着，系统使用 Grounded SAM 2 跟踪目标物体的运动轨迹，并通过 Video Depth Anything 估计深度，再结合 RDP 算法将预测视频中的 2D 路径转换为稀疏、物理上可执行的 3D 轨迹。

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图7

换句话说，FDP 让机器人在真正执行动作之前，能够以视频的形式“预演未来”，为控制模块提供可信的动态参考。

它并不重新训练视频模型，而是直接利用生成结果进行空间推理。

Action Executor：行动规划器

Action Executor 是 Super-Mimic 的执行核心。它接收 FDP 生成的 3D 轨迹，经过两步优化后再执行：

抓取规划：利用 AnyGrasp 生成多个抓取候选，并由视觉语言模型选择最合适的方案；
轨迹优化：通过平滑项 (Cs mooth) 与避障项 (C coll) 的联合优化，使路径既连贯又安全。

优化后的轨迹会被发送给机器人执行。任务完成后，系统通过视觉语言模型验证结果；若目标未达成，则返回 HIT 重新规划，进入下一轮“规划—执行”循环。

模型整体协同过程

综上，Super-Mimic 的工作流程如下：

观察阶段（Watch）：HIT 解析人类演示，提取关键动作与子任务逻辑；
想象阶段（Imagine）：FDP 生成未来视频并提取3D轨迹，预测动作后果；
执行阶段（Act）：Action Executor 优化并执行轨迹，实现物理操作；
自我修正（Re-envision）：执行后验证结果，若失败则重新规划。

最终，Super-Mimic 能够在零样本（zero-shot）条件下，仅凭人类演示视频完成复杂的多阶段任务——

比如整理桌面、分类物品或准备餐食。

它不只是模仿，而是通过“看→想→做”的闭环，让机器人真正具备了推理与自我调整的能力。

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图8

实验结果

研究团队在真实机械臂平台（xArm7 + RGB-D 相机）上进行了多项长时序操作测试，包括备餐分类、桌面整理和无序搬运三种任务。

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图9

▲图4｜实验平台设置©️【深蓝具身智能】编译

结果显示，Super-Mimic 在完全零样本的条件下，仅凭人类视频演示就能完成复杂操作：

在“备餐”任务中成功率达 50%，是对比方法（20%）的两倍以上；
在“桌面整理”中达到 40% 成功率，同样远超 ReKep 和 MOKA；
在最难的“无序搬运”中，语言方法几乎全军覆没，而 Super-Mimic 依然能完成 20% 的任务。

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图10

更重要的是，它还具备迁移技能：看人类分类水果，就能在新环境中自行归类物品。

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图11

消融实验进一步证明——去掉“意图解析（HIT）”或“未来预测（FDP）”，性能都会显著下降，说明真正的突破来自这两个模块的协同：

理解意图让机器人更准，想象未来让它更稳。

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图12

总结

Super-Mimic 的意义不止在于让机器人学会“模仿”，而是让它真正拥有一种具身的想象力。

在以往的模仿学习中，机器人只会复制人类的动作轨迹，却无法理解其中的意图或结果。而这项研究，让机器开始像人类那样去观察、预演、再行动——

它看一段视频，就能自己推断逻辑、预测后果，并在新场景中重新规划。

实验表明，Super-Mimic 能在零样本的条件下完成长时序任务，不依赖语言提示，也不需要任务特定数据。这意味着，未来的机器人只要看过人类的一次操作，就能在陌生环境中举一反三。

编辑｜阿豹

审编｜具身君

工作投稿｜商务合作｜转载：SL13126828869（微信号）

>>>现在成为星友，特享99元/年<<<

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图14

【具身宝典】｜｜｜｜

【技术深度】｜｜｜｜｜｜｜

【先锋观点】｜｜｜

【非开源代码复现】｜｜

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？‍

欢迎关注【深蓝具身智能】👇

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图15

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成，希望各位遵守原创规则珍惜作者们的劳动成果。

投稿｜商务合作｜转载：SL13126828869（微信）

具身智能赛道「新黑马」？港科广 Super-Mimic 让机器人靠 “想” 复刻全流程图16

点击❤收藏并推荐本文