国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作

深蓝具身智能 2025-10-20 17:38
国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图1
今天是10月20日
大家周一好

7 篇本周关注到的学术进展(要点版)

  • 【上海交通大学】提出 Harmanoid 框架,双人协同运动模仿方法。

  • 【北京大学】提出LOMORO框架,将多机器人任务分配建模为受资源和监控间隔约束的优化问题。

  • 【清华大学】等基于软提示(Soft Prompt)的学习方法,为每个数据源引入独立的可学习嵌入作为具身特定提示。

  • 【中国科学院大学】QDepth-VLA,一种通用框架,通过引入辅助的深度预测任务来增强VLA模型的空间感知能力。

  • 【北京大学、智在无界】提出仅需一次仿真演示即可实现多任务泛化,并有效完成从仿真到真实机器人的迁移。

  • 【上海交通大学等提出“训练场”(training ground)的概念,即一个集任务与场景模拟、具身交互和反馈机制于一体的综合性基础设施。

  • 【英伟达】提出将机器人动作直接用自然语言文本表示,无需修改VLM词汇表或添加专用动作模块试图解决如何构建高效的视觉-语言-动作模型(VLA)以实现通用机器人操作的问题。

(如果有不全面的地方,欢迎大家补充,以期共同进步。PS:没时间看详细介绍的朋友,【要点速览】可供快速浏览。)

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇


 1

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图2
上海交通大学:Harmanoid 框架,双人协同运动模仿方法。

人形机器人真正的潜力并不仅仅在于单个机器人的自主性:两个或更多人形机器人必须能够进行基于物理、具有社会意义的全身交互,以重现人类社交互动的丰富性。

然而,现有的单机器人方法存在孤立性问题,忽略了智能体之间的动态交互,导致接触错位、身体穿透以及动作不自然。

为解决这一问题,本文提出了Harmanoid——一种双人形机器人运动模仿框架,能够将人类之间的交互动作迁移至两个机器人,同时保持运动学上的精确性和物理上的真实性Harmanoid包含两个关键组成部分:

(i)具备接触感知的运动重定向,通过将SMPL模型中的接触点与机器人顶点对齐,恢复身体间的协调性;

(ii)基于交互的运动控制器,利用针对特定交互设计的奖励机制,确保关键点的协同运动以及符合物理规律的接触行为。

通过显式建模智能体间的接触关系和交互感知的动力学,Harmanoid捕捉到了单机器人框架固有忽略的人形机器人之间的耦合行为。

实验表明,Harmanoid在交互式运动模仿方面显著优于现有单机器人框架,而后者在类似场景中大多表现不佳。

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图3

文章链接:https://arxiv.org/pdf/2510.10206v1

项目地址:https://github.com/ZuhongLIU/Harmanoid

 2

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图4
北京大学:LOMORO框架,将多机器人任务分配建模为受资源和监控间隔约束的优化问题。

对大量动态目标进行长期监测对于人类操作员而言可能十分繁琐,单个机器人也难以胜任,例如在野生动物群监控、入侵者检测以及搜索救援等场景中。、
由多个自主机器人组成的机群若能协同并发地工作,则可有效完成此类任务。然而,由于目标行为未知且每个机器人的感知能力有限,在线协调这些机器人面临巨大挑战。现有研究通常部署所有可用机器人,而未尽量减少机群规模,或忽视了机器人资源(如电池电量和内存)的约束条件。
本文提出一种名为LOMORO的在线协调方案,用于实现协作式目标监测、路径规划与资源补给。该方案包含三个核心部分:
(I)在资源限制和监测时间间隔约束下,对多机器人任务分配问题进行建模;
(II)基于资源感知的任务协调算法,通过Martin算法在高层动态目标分配与底层多目标路径规划之间进行迭代优化;
(III)针对不可预测的目标行为或机器人故障的在线自适应算法。
该方法确保所有目标的监测间隔具有明确的上界,所有机器人的资源水平保持在设定的下界之上,同时最小化活跃机器人的平均数量。
国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图5

文章链接:https://arxiv.org/pdf/2510.10046v1

 3

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图6
清华大学:基于软提示(Soft Prompt)的学习方法,为每个数据源引入独立的可学习嵌入作为具身特定提示。

成功的通用型视觉-语言-动作(VLA)模型依赖于在多种机器人平台上,利用大规模、跨具身形态、异构的数据集进行高效训练。

为了促进并充分利用丰富多样的机器人数据源中的异质性,本文提出了一种新颖的软提示(Soft Prompt)方法,仅需极少的额外参数,通过将提示学习的思想引入跨具身形态的机器人学习,并为每个不同的数据源引入独立的可学习嵌入向量。

这些嵌入向量作为特定具身形态的提示,在整体上使VLA模型能够有效利用多样化的跨具身特征。本文提出的新型X-VLA是一种简洁的基于流匹配(flow-matching)的VLA架构,完全依赖经软提示调制的标准Transformer编码器,兼具良好的可扩展性和结构简洁性。

该模型在6个仿真环境以及3个真实世界机器人平台上进行了评估,其中0.9B参数规模的实例X-VLA-0.9B在多项基准测试中均达到了当前最优(SOTA)性能,在从灵活操作能力到跨具身形态、跨环境及跨任务的快速适应能力等多个维度上表现出卓越的性能。

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图7

文章链接:https://arxiv.org/html/2509.14380v1

 4

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图8
中国科学院大学:QDepth-VLA,一种通用框架,通过引入辅助的深度预测任务来增强VLA模型的空间感知能力。

空间感知与推理对于视觉-语言-动作(VLA)模型完成细粒度操作任务至关重要。然而,现有方法往往缺乏理解和推理实现精确控制所必需的三维结构的能力。

为解决这一局限性,本文提出了QDepth-VLA,这是一种通用框架,通过引入辅助的深度预测任务来增强VLA模型。

该框架设计了一个专门的深度专家模块,用于预测由VQ-VAE编码器生成的深度图的量化潜在标记,从而使模型能够学习到包含关键几何线索的深度感知表征。

在仿真基准和真实世界任务上的实验结果表明,QDepth-VLA在空间推理方面表现出色,并在操作任务中实现了具有竞争力的性能。

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图9

文章链接:https://arxiv.org/html/2510.14836v1

 5

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图10
北京大学、智在无界:仅需一次仿真演示即可实现多任务泛化,并有效完成从仿真到真实机器人的迁移。

灵巧操作与移动的结合(loco-manipulation)是人形机器人在人类环境中实现多样化交互所面临的一项基本挑战。尽管近期研究在人形机器人全身控制方面取得了显著进展,但灵巧操作与移动的协同仍缺乏深入探索,通常依赖于硬编码的任务定义或大量昂贵的真实世界数据采集,这限制了系统的自主性和泛化能力。
本文提出DemoHLM,一种用于人形机器人灵巧操作与移动的框架,仅需一次仿真中的演示,即可实现在真实人形机器人上的可泛化灵巧操作与移动。DemoHLM采用分层架构,将底层通用全身控制器与高层针对多种任务的操作策略相结合。
该全身控制器负责将全身运动指令转化为关节扭矩,使人形机器人具备全向移动能力;而高层操作策略则通过本文设计的数据生成与模仿学习流程在仿真中训练获得,利用闭环视觉反馈向全身控制器发出指令,以完成具有挑战性的灵巧操作与移动任务。
实验表明,合成数据量与策略性能之间存在正相关关系,凸显了本文数据生成流程的有效性以及方法的数据效率。在配备RGB-D相机的Unitree G1机器人上开展的真实世界实验验证了DemoHLM出色的从仿真到现实的迁移能力,在十项不同的灵巧操作与移动任务中,即使面对空间布局的变化,系统仍表现出稳健的性能。
国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图11

文章链接:https://arxiv.org/html/2510.11258v1

 6

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图12
上海交通大学:提出“训练场”(training ground)的概念,即一个集任务与场景模拟、具身交互和反馈机制于一体的综合性基础设施。

具身决策使智能体能够通过与物理世界的持续交互,然而,仅在语言数据上训练的大语言模型缺乏对物理环境的实际接触,限制了其真正的具身理解能力。
为弥合这一差距,本文提出了“训练场”(training ground)的概念:一种综合性基础设施,提供任务与场景模拟、具身交互以及反馈信号,为大语言模型获得真实的具身决策能力提供一站式解决方案。
本文推出了EmboMatrix,这是首个此类训练场,支持海量且多样化的任务,并具备高效的模拟机制和精确的奖励机制。EmboMatrix融合了一系列创新技术:用于大规模生成任务与场景的多智能体数据引擎、支持可扩展模拟的分布式异构硬件系统,以及实现精准监督的多层次奖励架构。
依托EmboMatrix,本文培育出EmboBrain——一种通过大量具身交互而涌现出具身决策能力的大语言模型。实验表明,在两个极具挑战性的具身决策基准测试中,EmboBrain-7B的表现超越了6710亿参数的DeepSeek-R1基线模型达9.5%,充分证明了基于交互和环境 grounding 的学习方法在构建真正智能的具身智能体方面的强大潜力。
国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图13

文章链接:https://arxiv.org/html/2510.12072v1

  7

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图14
英伟达:提出将机器人动作直接用自然语言文本表示,无需修改VLM词汇表或添加专用动作模块试图解决如何构建高效的视觉-语言-动作模型(VLA)以实现通用机器人操作的问题。

将动作直接表示为文本这一最简单的策略却几乎未被探索。本文提出了VLA-0以研究这一思路。本文发现,VLA-0不仅有效,而且表现惊人地强大。

通过合理的设计,VLA-0的表现超越了更为复杂的模型。在广泛用于评估VLA的基准测试LIBERO上,VLA-0在使用相同机器人数据训练的方法中表现最佳。此外,在无需大规模机器人专用训练的情况下,VLA-0的表现也优于那些基于大规模机器人数据训练的方法,如π0、π0.5、GR00T-N1和MolmoAct。

这些优势同样体现在真实世界场景中,VLA-0的表现优于SmolVLA——一种在大规模真实数据上预训练的VLA模型。本文总结了这一出乎意料的发现,并详细阐述了充分发挥这种简单而强大的VLA设计性能所需的具体技术。

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图15

文章链接:https://arxiv.org/html/2510.13054v1

项目地址:https://vla0.github.io/


工作投稿|商务合作|转载:SL13126828869(微信号)

>>>现在成为星友,特享99元/年<<<

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图16

国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图17

【具身宝典】


【技术深度】


【先锋观点】


【非开源代码复现】

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?‍

欢迎关注【深蓝具身智能】👇


国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图18

【深蓝具身智能】的内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果。

投稿|商务合作|转载:SL13126828869(微信)


国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作图19

点击收藏并推荐本文

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人 驱动 高校 英伟达
more
边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA
训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
国内高校霸榜具身智能周!上交大双人协同框架、北大跨域迁移,英伟达用文字直接驱动机器人动作
英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
英伟达、AMD罕见携手,众多厂商大秀AI硬核实力
AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
重大突破!阿里云:英伟达GPU用量削减82%
汽车早餐 | 市场监管总局将加快《缺陷汽车产品召回管理条例》等法规制修订;黄仁勋称英伟达在中国先进芯片市场份额已从95%降至0
仅用三五条样本击败英伟达,国内首个超少样本具身模型登场
寒冬降临!英伟达:中国市场份额从95%跌至0%
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号