作者:赵昊,本文已获授权
地址:
https://www.zhihu.com/question/1937097687703969929/answer/1941534949216874601
我研究的是灵巧脸hh,就是最容易陷入欢乐谷效应的那一part,我切入这一块的原因主要有三个:
(1)差异化。灵巧手/四足/双足的论文都已经很多了,搞科研嘛,当然是做别人没做过的东西,稍微有点科研经验的小朋友应该都读到过reviewer 2写的This paper is limited in novelty吧xs。
我经常在组内跟同学们说立意一定要新,就算被拒了挂到arxiv上,只要是新东西,这个世界上70亿人中总会有人觉得有意思,如果novelty不够不仅会被审稿人喷,而且最终的影响力也是有cap的。
因此在两年前决定开始自研硬件的时候,我们就坚决挑选了灵巧脸这个赛道~
(2)灵巧脸这块短期战略上是比较高价值的,这里比较敏感,但是可能也是共识了,最近很多投资人跟我说:“现在资本市场已经冷下来了,因为越来越多的人知道无论是工厂还是家用,通用具身智能离落地都还远”,反而是交互/展示市场是一个比较确定的一直存在的赛道。
而灵巧脸终究是这块需求最核心的东西,无论是导购/导览/展示/家用(wait,家用???),一个能做拟人表情,跟人类丝滑交流对话的灵巧脸肯定会大大提升用户体验。
(3)灵巧脸在长期战略上也注定是比较高价值的,试想30年后人形机器人已经走入千家万户了,最高附加值的产品是什么?我想注定还是能够提供超高情绪价值的有灵巧脸的完全体人形机器人,而不是轮式+屏幕脸+夹爪的仿人型机器人吧。
这个事每个时代都是一样的,当生产力解放了,溢价最高的永远还是解决人性中高阶需求的产品,比如法国的奢侈品和护肤品和openai的大模型。
那么怎么真的走出欢乐谷呢?除了设计方面,还是有很多technically东西的,我们做的第一个改变就是“混动”。

如图所示,以前的灵巧脸要么是绳驱(tendon driven)要么是杆驱(rigid driven),我们的Morpheus是“混动”的,也就是大的脸部结构式rigid driven,但是脸部的微表情是tendon driven。
这是因为:(1)rigid driven的优点是精准,大家学robotics第一件事就是了解什么是fk和ik,但是只有刚性的结构才有确定的fk和ik;rigid就意味着可以精确控制;但是缺点就是占位置,每加一个自由度就要加一个连杆机构,我们要怎么把这么多连杆藏到头里面???(2)tendon driven的有点就是省空间,毕竟就一个绳子嘛,但是缺点就是没有闭式的fk和ik,很难控制,不能全脸都是tendon的,这样的控制学难题我还没有打算去挑战hh(btw,tendon driven的另一个缺点是没劲或者专业说法负载不够。
我们做的第二个改变就是引入数字人的最新技术,这里不得不提我们的三作子乔弟弟(主页:https://ziqiaopeng.github.io/)是数字人巨佬。

他的synctalk已经有1500个star了:https://github.com/ziqiaopeng/SyncTalk。
既然数字人的精准talking head synthesis已经可以做到这么好了,我们为什么不做一个embodied talking head synthesis??其实这就是这个paper的出发点啦。
通过blendshape基的映射,我们的灵巧脸可以做各种表情:

当然,Morpheus最牛逼的地方就是可以输入任意一个自然语言和情绪,就可以对应控制灵巧脸。感兴趣的同学请移步:https://jiawenyang-ch.github.io/Morpheus-Hardware-Design/。