具身智能的泛化性从何而来?有哪些途径?
今天分享的智猩猩开讲小知识摘选清华大学交叉信息学院博士生、斯坦福大学访问学者胡开哲在「智猩猩AI新青年讲座具身智能专题」做的讲解。讲座的主题为《生成式模型助力可泛化的具身智能》。
想要完整回放及课件的朋友,可以后台私信“开讲小知识 005”进行获取。
1
视频切片
2
切片信息

这就是我想尝试回答的一个问题,叫做泛化性从何处而来?那么我想强调的是两个不同的途径。就是大家看到我在右边画了一个章鱼,不是我画了一个章鱼,是我让AI画了一个章鱼,很遗憾我还画不了这么好的章鱼。但是这个章鱼有什么特点?就是它有一个中心式和分布式的一个神经系统。它本身,章鱼我们知道它有一个比较发达的大脑,它可以控制它去做。但是同时,它在每个触手的末端,它也有一个神经节,就可以理解为它在每一个末端执行器,它有它自己的小大脑,然后来去控制它做某一个具体的任务。
那么我把这个比喻我们迁移到具身智能上来。我想说的是,就是我们的泛化性也有两条途径。一条是说这里的大脑我会把它比作说我们的大预训练模型,就是它见过非常多的数据,它有很大的参数量,那么它可以在很大程度上去模仿人类的一个思维过程,具有很强的泛化性。
但是大模型的泛化性并不能直接地被用在我们的底层的AI。所以这中间就需要一些桥梁。那么这两种桥梁就可以自顶向下地去搭建,也可以自底向上地搭建。那么自顶向下的泛化,我的一个归纳是说,我从这个预训练模型出发,我可以从中去提取出一些有利于我底层策略去泛化的一些语义信息和引导。我们可能之后会看到这些。
就是可能提到大模型,大家会想到说OK,我可以用大模型做任务规划,我可以用它做一个中枢,我觉得这当然都没有问题,但是它可能太过宽泛了,就是它可能并不能帮我们解决一些更具体的,更就是更low level的一些任务。那大模型能不能帮助模型解决掉,这样我觉得是可以。那么我们之后会看到说,其中一条途径如何自顶向下。那么同样在另一方面,我也可以自底向上地,从通过大模型来帮助我的底层策略去学习。然后我可能有一些途径来帮助它,去获得更好的性能。

对,我们首先来看一下,第一点就是自顶向下。那么我们知道大模型它有大量的训练数据,它非常的稳定。然后以及,但是它会有一个问题,就是它推理速度有限,它并不能实时地跟着我的底层模型。对,所以我们可能需要一些异步的一些指导策略。那么我想说,就我们并不一定要用一个分层式的策略,才能自顶向下地利用大模型。大模型本身,它有很多对这个世界的先验知识,它知道看到一个物体哪里是应该操作它的部分,它知道对于不同的两个物体,它们的一些部位可能有着相同的功能。比如说都是把手或者都是盖子。它也知道说,OK我看到一个锤子,它的把手应该是一个木质的、比较轻的,而它的顶部是一个金属比较重的。对,所以说大模型有很多这样的一些通用的认知,我们可以把它作为一个信号传递给底层。那我刚刚提到的其中一点就是说语义对应,也就是说大模型可能会知道一些表面看起来形态各异的物体,它的不同的部位其实具有相同的功能。那这我觉得是自顶向下利用大模型的一个泛化性的挺好的途径。

那么另一方面,如果我从底层的控制算法出发,它有这样一个好处,就是控制算法本身的泛化性,它可以实现更灵巧的操作,以及它可以分担调用大模型的成本。但是我觉得在现阶段我们看到了一些工作,它去scale up这个所谓的底层模型。就比如说我们有最近的工作,可以把diffusion policies scale到一个billion这个量级的参数量上,就其实是已经很大的成就了。但是我觉得在我们现在这个数据量还是很难把底层模型scale到足够,让它做真正的多任务,就是它可以跨任务泛化,就它去理解我刚刚说的那种因果性,就是我应该先做什么,再做什么。那么我觉得面对这个问题,我们可能还是要求助于传统意义上的,就是预训练的VLM或者一些生成式模型,它们所具有的这个语义知识,还是底层模型泛化性的重要源泉。那么我们可以利用这样的大模型去做数据扩增,我们可以利用它去生成更多的数据,增加样本空间的覆盖。那么我们还可以做一件事情,我把它叫做对观测数据进行一个编码,或者进行一个预处理,它可以去缩小底层模型需要面对的一个表征空间的复杂度。使得我底层模型,它可能不需要去学会泛化什么,它只需要在一个子集当中去学会办法。
点击下方名片 即刻关注我们