
当前,机器人技术正引爆“第四次工业革命”,大厂卡位、政策频出、竞争白热化。在这样一个巨头环伺、资源高度集中的战场,来自高校与小团队的研究者如何突围?
——这是摆在大多数团队面前的现实困境。
前不久,我们与周博宇老师在B站、视频号、小红书、深蓝学院官网进行的《具身三人行》栏目首期直播,正是聚焦于这一议题。

首期直播,“集结了”三位来自不同省份、不同院校的副/助理教授、年轻学者:
一位是80后“冠军导师”:他带领团队斩获2024 ICRA 机器人抑取操作挑战赛手内操作赛道冠军,并于2025再下一城,夺得杂乱抓取赛道冠军。
一位是85后“开源先锋”:他所发起开源项目获GitHub Star 1.3万+,荣誉等身:上海市海外高层次人才、吴文俊人工智能优秀博士学位论文等——实力与影响力兼具。
一位是95后“顶刊新星”:他以第一作者身份实现亚洲单位首次荣获IEEE TRO最佳论文奖,多项工作入选TRO、RAL最受欢迎论文,现任微分智飞企业首席科学家——产学研融合的代表。
这三位分别来自北上深三大创新高地的老师,在这场圆桌中都带来了极具启发性的破局思路。
本文主要对三位嘉宾的观点进行了核心梳理,探讨不同的创新生态和突破路径,值得每一位身处激烈竞争中的研究者、工程师关注。

在缺乏大规模数据与算力的背景下,有哪些被低估但潜力巨大的研究路径?
是迂回还是直面。
其实面对数据和算力短缺的问题,核心思路可以更灵活:
不用默认所有环节都得靠数据驱动,不妨先琢磨琢磨,有没有能降低数据成本的解决办法?

一、迂回路线:避开数据依赖
李翔老师:以灵巧手操作研究为例,展示了如何借助“基于模型的方法”绕过数据瓶颈。
他的团队在柔性物体操控方面不仅夺得2024 ICRA“手内操作”冠军,还斩获全场唯一的“最优雅解决方案”奖。
他强调,基于模型的控制结构能从根本上缓解 “数据驱动方法效率低、参数难调”的痛点:
通过引入自动化学科中的反馈机制,可大幅增强系统的闭环稳定性与场景泛化能力,同时实现高精度控制。
这样一来,就能同时兼顾 “高精度” 和 “高泛化性”,完全不用依赖大量数据。

二、直面痛点:对症下药
李永露老师则主张 “对症下药”:既然数据是核心难题,那可以从两方面入手,都是小团队能尝试的方向:
一方面是搭建基础设施。
通过升级基础设施,能降低数据获取的成本,让数据更容易积累。长远来看,这些基础设施进步了,未来数据和算力可能就不再难获取、成本也会变低,数据越积越多,研究也能越做越顺。
另一方面是聚焦 “无需大规模试验就能验证的基础问题”。
这类问题不管在哪个阶段都存在,不用靠大量数据或算力去试错,只需清晰的定义和简洁的实验设计。小团队不用承担太高成本,就能切入研究。

三、见招拆招:权衡“建模成本”与“数据成本”
周博宇老师,结合自身经验举了个典型例子:
诸如许华哲老师课题组提出的DP3方法证明,使用3D点云作为输入比2D图像训练出的策略泛化能力更强。
而这类“验证某个idea能否提升效果”的验证性研究,并不需要百万级数据或超大模型、也不用几十B参数的大模型,小规模实验,普通课题组完全可承担。

综合几位老师的分享来看,关键其实在于做好“成本权衡”:
比较“为问题建模的成本”和“获取高质量数据的成本”,何者更低。
如果建模更划算,就应果断选择模型驱动的路径,不必硬凑硬凑数据驱动或端到端的热闹。
同时,周博宇老师还拿当下热门的VLN进行了举例:
视觉导航(VLN)任务这里可以进一步拆解为high-level的决策和low-level的导航避障。

导航避障方法:
导航避障方法已经研究很多年了,有非常经典的方案,很多场景下都能稳定适配不同环境。
比如无人机领域,五年前就有很可靠的方法 —— 一次建模完成后,不用任何训练,就能在洞穴、树林、废弃建筑这些复杂场景里实现高速飞行和避障;不用反复调参,还能通过优化充分发挥无人机的灵活性。
但如果换数据驱动的方法来解决同一个问题,就得让专业飞手在这些场景里飞无数次,收集海量数据,才能达到同等效果 —— 这种工作其实没必要。
端到端跟踪(tracking) :
这类方法的初衷是用 “一段式” 架构,避免 “检测→规划” 过程中出现误差传递。
但实际情况是,端到端跟踪需要的 “从观测到跟踪动作” 的高质量数据,获取成本比传统图像检测和跟踪高太多了。
更何况,多年前靠 “鲁棒的人体检测器 + 跟踪规划控制” 的组合,就已经能实现持续稳定的人体跟踪了,甚至还有成熟的商业化方案。
如果不得不用学习方法,也能靠灵活的思路降低数据成本。
比如最近热门的无人机端到端规划方法 YOPO,就是通过加入自监督机制,减少了对大规模标注数据的依赖。
还有最近逐渐受到更多关注、新兴起的 “挖掘互联网视频进行预训练” 方向,也有一种很有潜力的低成本获取大规模视觉先验的有效路径。

具身君追评:当下对大多数小团队来说,“模型优先、数据为辅、权衡成本、小步快跑”可能才是更务实的选择。

哪些具体问题或技术方向值得长期深耕?是否存在“小而美”的突破口?
很多从业者可能会觉得 “没什么问题可做”,总觉得能想到的思路都被热门方向覆盖了,相关论文也已经不少。
但其实只要跳出 “单一目标”,从更多元的角度思考,就会发现还有很多值得长期深耕的空间。
▲图源|深蓝具身智能《具身三人行》专栏
一、核心挑战与短板审视
李翔老师,以灵巧手研究为例指出,灵巧手的能力上限,直接决定了机器人的整体性能。
目前,机器人在以下几类核心挑战任务中与人类的表现仍存在显著差距:
对快速形变的柔性物体进行操作(如布料、线缆等);
抓取后的精细手内操控(如物体姿态实时调整);
人机协作场景中的响应与协调能力。
除此之外,像动态场景、堆叠场景,以及对精度要求极高的场景等,都是机器人当前亟待突破的短板。

李永露老师,则将重点放在 “对复杂物理现象的直觉式理解” 上。
他认为这一方向的核心,是要解决 “大规模因果推理(causal reasoning)” 的实际落地问题:
让机器人不仅能 “做动作”,还能理解动作背后的物理逻辑。

▲图源|深蓝具身智能《具身三人行》专栏
二、泛化性之外的细分方向探索
尽管当前大量研究聚焦于“泛化性”,但在具身智能迈向真正实用的道路上,仍有多个维度尚未成熟,却极具研究价值和落地潜力:
动态场景的适应性:
机器人未来要走进人类社会,难免要和人打交道;工业里的物流分拣、流水线操作,也大多需要在动态过程中完成。
像目前 Demo 里那种 “静态、非常理想” 的场景,实际中很少见,这方面研究还有很大缺口。
比如让机器人抓 “回转寿司”,或是 “边走边抓一瓶水”,现在大多还做不好。
精度问题:
李翔老师之前分享的 “柔性线缆操作” 的例子,这确实是很多工厂难以自动化的环节 —— 难度太高,目前只有人能做到足够精度。
比如 “把线拉直后插入接口”,这类高精度任务直接关联工业自动化需求,研究价值很实在;再比如一些半导体制造行业的机器人,精度要求更加苛刻,“看得准,拿得稳”十分关键。
这类问题直接对应工业自动化中尚未解决的痛点,技术突破带来的价值极为显著。
感兴趣的朋友可以看看优艾智合这个公司的故事。

因果推理能力:
这可以简单理解为让机器人对物理世界的事物 “知其然,也知其所以然”。
比如看到一个苹果,能知道 “红、圆、新鲜” 意味着可以吃;但如果苹果发霉、变形,能判断出 “可能腐烂” 所以不能吃。
这种复杂的推理理解能力,是机器人执行更复杂任务的基础,目前还需要大量研究。
效率问题:
现在很多模型的 “任务效率” 和 “计算效率” 都不太理想。
任务效率上:可能得开 8 倍速、十几倍速,画面才像正常人的操作速度,实际作业中完全不够用;计算效率上:用几B、几十B参数的大模型实时控制机械臂,本身就很低效,根本做不到高频的闭环反馈执行。
狭窄空间适应能力:
比如让机器人在药房里自主完成售卖,很多实际药房的通道很窄,药柜层与层之间的间隙也小,要在这样的空间里移动,同时从受限空间中取药。
是个很复杂的实际问题,目前还缺乏成熟解决方案,却具备很强的商业应用前景。

▲图源|高飞老师团队成果 | Whole-Body Control Through Narrow Gaps From Pixels To Action
可靠性问题:
技术真正落地时,更要关注能不能把成功率做到99.9999%。
用户其实不关心那些复杂的技术细节,把任务上做到极致更重要。
比如:快递自动分拣机器人,能不能处理百万件快递都不出错一次?
要做到这一点,其实还有很长的路要走。反观现在,大家可能都在追求在五花八门的任务中达到百分之几十的成功率,这种目标和技术实际落地的需求之间,其实存在很大gap。
小结
要让具身智能成为真正可用的“六边形战士”,泛化性只是其中一个维度,仍有诸多方面待优化,不必总紧盯泛化性,需打磨多维度。
每个维度都急需更简洁高效的解决方案,这正是诸多长期有价值研究的来源。
也正是小团队的机会所在:不必追逐热点,而应回归真实需求,在关键技术短板中寻找那些“值得做、可落地、尚未被做透”的开放问题。


高校研究者如何利用学术环境,做出企业难以复制的工作?
高校研究者如何充分利用学术环境的独特优势——包括学术自由度、跨学科资源及长周期视野,开展那些企业难以复制的研究工作?
关键在于找准定位,善用“非对称优势”。
一、发挥“聪明脑袋”价值
李翔老师指出,高校研究者应牢牢把握“问题属性”与“学科优势”,做企业不擅长或不愿做的研究。
1.要认清 问题的“收敛状态” ,判断优势战场。
如果一个问题还没收敛,处于发散期——解决方案百家争鸣、远未定型,高校其实能做出很多新思路。
但如果方案已经成熟,已趋收敛——只需要靠更多资源、更低成本去提升性能,那高校在这方面就没那么多优势了。在这类方向上硬拼资源,属于是以短搏长。
2.必须紧扣自身学科特色,做“有学术门槛”的研究。
以李翔老师团队为例,他们都是结合自动化专业的控制、优化背景做灵巧操作研究。
如果要从 “控制 + 优化” 的思路解决灵巧手操作问题,尤其是算法层面的研究,没学过控制、优化相关课程,根本没法从这个角度切入。

▲图源|深蓝具身智能《具身三人行》专栏
相反,若高校研究者放弃自身学科优势,盲目追随企业热点,陷入纯粹的数据和算力竞赛,那肯定发挥不出高校的特色。
简单说,高校还是要多发挥 “聪明脑袋” 的价值。
我们学的那些课程、掌握的数理工具、物理原理,都是有门槛的,只有彻底掌握这些,才能把优势发挥出来。

▲图源|《具身三人行》李永露老师分享
二、发挥“学术自由”价值
李永露老师则认为,应该依托 “无压力环境” 与 “跨学科碰撞”。
第一,跳出 KPI 绑架,敢想敢试。
不用被 KPI 绑架,比如要是申请太多算力卡,实验室反而会有类似企业的 KPI 压力,失去学术研究的灵活性。
正因为没那么多现实约束,我们反而能尝试一些 “天马行空” 的方向。
这种思路听起来可能 “飘”,但本质是换了个全新视角看问题,这正是高校的优势所在。

三、探索求“异”之路
当然,高校和企业也可以多互动合作,一起做事情,效果会更好。
不可否认,企业受限于融资压力、行业风向,不得不做同质化的研究—— 毕竟要做投资人爱看、符合行业热点的事。
但高校没有这些约束,反而能发挥想象力,尝试不同的技术路线。
比如在企业里,就算有很有潜力的路线,只要和公司大方针不符、不合领导口味,大概率拿不到资源支持;但高校里,只要方向有价值,就能靠学术自由去探索。
其实 “多样性(Diversity)” 对创新特别关键。
就像来到一片陌生的土地,是撒一把不一样的种子,还是撒一把完全相同的种子?显然前者的风险更小
—— 不同的种子能适应不同环境,也更容易长出新的可能性。
高校的价值,正在于播撒这些 “不一样的种子”,尤其是在路线还没收敛,百花齐放的阶段。


一、回归本质,以 “解决实际问题” 为核心
李翔老师指出,无论技术多么热门,机器人研究的本质始终是“与真实物理世界可靠交互”。
我们不应被论文指标和短期热点带偏,而应回归机器人初心,从 “解决实际问题” 定义价值。

动态场景适配:产线上的物体都是动态移动的,机器人能不能实时完成抓取? 堆叠场景处理:不同物体堆叠在一起,要抓下方物体时,能不能先移除上方物体? 语义信息结合:不是生成个手型就够了,不同物体有不同的最优抓取位置,怎么结合语义判断? 动态调整能力(reactive):第一次没抓稳、没抓成功时,能不能根据环境调整,提高成功率?这是工业生产很看重的指标。 手内姿态调整:抓完物体后,为了配合下游任务,能不能在不接触外界的情况下,在手中调整物体姿态到更合适的位置? 双臂协同发挥:现在人形机器人都标配双臂双手,但自由度有没有充分利用?比如右手抓物体递给左手时,能不能不只是简单 “交接(hand over)”,而是在传递过程中通过操作,让左手接到时的物体姿态更适配后续场景?
回归机器人的初心,很多人肯定都听过所谓的3D任务(dirty, dull, dangerous)。
最终是要解决人类社会的各类问题,把那些个体觉得乏味、枯燥甚至有危险的事承担下来。

二、以 “分阶段平衡” 破题
李永露老师,则从培养学生角度提出务实路径:不必将“热门”与“有价值”对立,认为没必要非此即彼,而应通过分阶段实现平衡。
对学生来说,“平衡热门与价值” 这个问题,其实有点 “对抗消耗性”。
很多学生因为接触的信息、受媒体影响,会倾向于选择热门方向,要是直接跟他们说 “这个不好、别做”,他们很容易产生抵触情绪。
所以李永露老师的思路是 “一分为二”,不搞非此即彼:
对刚入门或计划进入毕业后去工业界的学生,建议其先从热门方向切入。
这有助于快速掌握编程、实验设计等基础研究技能,积累实战经验,同时提升就业竞争力。
待学生技术栈成熟、对领域形成切身感受后,再逐步引导其关注 “更有品味(Taste)”的真问题。
热门方向之所以形成,本身具有一定的合理性和社群基础。
完全回避并非最优解,更好的方式是以热入门类为“训练场”,在掌握规范、建立认知之后,逐步转向对领域有实质推动的开放问题。
所以不一定非要在 “热门课题” 和 “有价值的研究” 之间二选一。


后续我们还会围绕具身智能领域的热门话题,继续展开深入讨论,欢迎大家长期关注、加入深蓝学院知识星球。
完整 Talk 视频回放已上线至深蓝学院全域星球,现在加入立减100元

Ref:
周指导BoyuZhou的文章:资源有限的小团队,如何突围具身智能研究?
1. https://zhuanlan.zhihu.com/p/1945138083856101733
2. https://zhuanlan.zhihu.com/p/1945545996223361119
ABOUT US|关于ARTS

为促进自主机器人领域一线青年学者和工程师的交流,推动学术界与企业界的深度交融与产学研合作,中国自动化学会主办了自主机器人技术研讨会(Autonomous Robotic Technology Seminar,简称ARTS)。
基于前两届大会的成功经验和广泛影响,第三届ARTS将继续深化技术交流与创新,定于2025年10月18日-19日在浙江大学(杭州)举办。我们诚挚邀请您参加,并欢迎您对大会组织提供宝贵意见和建议!

我们开设此账号,想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
欢迎关注【深蓝具身智能】👇
