

1984 年,苹果发布 Macintosh,用图形界面取代了命令行。此后四十年,计算设备的每一次革命本质上都是界面革命:鼠标、触屏、语音、手势。硬件性能的提升固然重要,但真正改变人与机器关系的,从来都是交互方式的变化。

心理学中有个「55/38/7 定律」:55% 的情绪信息来自面部表情,38% 来自声音,只有 7% 来自文本。换言之,超过一半的情绪信息是通过面部传递的。想让人和机器人产生情感连接,一张能表达情绪的脸几乎是必需品。
但人脸这个赛道,几乎所有人形机器人都选择了留白。
这也是胡宇航把人脸视为一个「平台」的原因。就像 iOS 不是 iPhone 的某个 App,而是所有 App 运行的基础层——人脸是人类社交协议的基础层。眼神接触建立信任,微笑传递善意,皱眉表达疑虑。
从这个意义上说,人脸是人类最古老的操作系统。首形科技要做的,是把这套操作系统移植到机器人上。
接下来从几篇论文看看胡宇航是怎么做的。
胡宇航是哥伦比亚大学机械工程系博士,师从 Hod Lipson 教授。Lipson 实验室是全球机器人自我建模领域的先驱,从 2006 年就开始探索让机器人通过观察自身来学习运动。
2024 年 3 月,胡宇航作为第一作者在 Science Robotics 发表了关于面部「共表达」的论文。

这篇论文的核心想法很有野心:机器人不应该只是模仿人类的表情,而应该能预测人类即将做出的表情,并同步执行。
团队设计了名为 Emo 的机器人头部,配备 26 个驱动器,覆以柔性硅胶皮肤,瞳孔中嵌入高分辨率摄像头实现眼神接触。
训练过程分两步:先让机器人对着镜子做大量随机表情,通过自监督学习建立面部自我模型;然后让它观看人类面部视频,学习预测对话者的表情变化。

教机器人打乒乓球,再教它打羽毛球,学完第二个就忘了第一个。两个一起学,能力就被平均化了。
他想要的不是让机器人收敛到单一任务,而是让它学会一种「学习的能力」。

这次聚焦嘴唇运动。在人类面对面交流中,将近一半的视觉注意力集中在嘴唇上。但即便是最先进的人形机器人,嘴部动作仍然停留在简单开合的层面。
胡宇航团队设计了一个 10 自由度的唇部驱动机构,配合柔性硅胶唇部,能覆盖 24 个辅音和 16 个元音对应的唇形。
算法层面,他们采用了基于变分自编码器(VAE)的自监督学习管线,结合一个面部动作 Transformer,让机器人直接从语音音频推断唇部运动轨迹,无需任何手工编写的音素-唇形映射规则。
最终实现了跨 11 种语言的唇音同步,包括说话和唱歌。
Lipson 教授当时说:未来不存在一个人形机器人没有脸的世界。一旦它们有了脸,就必须让眼睛和嘴唇正确运动,否则永远停留在恐怖谷里。
一台花了几十万、长得像人的机器,在工厂里干着原本三万块机械臂就能干的活不能称之为技术革命,更像是行为艺术。
整个行业在「人形」这个词上投入了大量资源,却在「人」这个字上集体失语。
没有脸的人形机器人能完成任务,但无法建立关系。而关系,才是 C 端市场的入场券。
首形科技选择了一条完全不同的路径。与其让机器人在生产力上跟工业机械臂硬碰硬,不如让它做工业机械臂永远做不到的事——建立情感连接。
胡宇航的核心判断是:在未来五年内,人形机器人最大的商业化机会不在生产力,而在情绪价值。
人天然会对像人的东西投射情感。你看到一个机器人摔倒了,你会心疼;看到机器人踢足球挤在一起,你觉得有趣。这种投射是本能的,不需要机器人真的有意识或感受。而人脸把这种投射放大到了极致。
2024 年 6 月,他在上海创立首形科技,团队不到十人。四个月后获得天使轮,投资方包括奇绩创坛、智元机器人和德迅投资。
此后融资节奏快得惊人。2025 年完成四轮融资,从招商局创投和深创投领投的Pre-A轮,到顺为资本领投的A轮,再到蚂蚁集团两度领投……
从产品线来看,首形目前有几个系列。
Elf 系列是全身仿生人形,有 30 个面部自由度,用无刷微型电机驱动硅胶皮肤。
Origin 系列偏研究和展示用途,Origin M1 是半身版,配备唇音同步和头眼协调能力。最新亮相的 Origin F1 则是他们技术的集大成者,搭载了所谓的 Omni Model,实现实时面部微表情与语音的深度融合。
此外还有一个更平价的 Lan 系列,定位为需要更多移动性的场景。


去年 12 月,首形科技和手游逆水寒在杭州 CP32pre 漫展联合推出游戏角色仿生机器人「方承意」。据报道,得益于双目视觉系统,他能够与面前的观众进行眼神交流,并通过搭载的 AI 仿生运动算法,做出自然的表情与头部动作。

更早,首形科技曾和逆水寒合作推出过精灵·璇机器人。精灵·璇后以新皮肤亮相抖音新春联欢会,献上了原创情歌《未定义的关系》。

落地方面,胡宇航曾提到过几个方向。短期来看,生活中有大量情绪消耗型的工作:销售、前台、服务人员。这些岗位本质上是对人类情绪的持续损耗。每天保持微笑,不厌其烦地解决重复问题。他觉得 2 到 3 年内,类人形态的机器人可以替代其中一部分。
更远的终局是 To C。让每个人身边都有一个能产生情感陪伴的仿生机器人。胡宇航没有回避这个目标的争议性。当一个 AI 永远在取悦你,没有冲突,没有自私的动机,它会不会把人困在虚假的关系里?
他说他们在训练机器人时会加入保持真实度的参数,让它有一定的冲突和自我表现,不纯粹是一个情绪按摩器。同时可以在程序中注入引导功能,比如节日到了提醒你回家看看父母,周末建议你和朋友去爬山。机器人不应该有占有欲。
这些想法当然还很早期。但觉得至少有一点是对的:情感需求的市场比大多数人想象的要大。手办、盲盒、毛绒玩具、宠物,这些都是情绪寄托的载体。
泡泡玛特一年卖出上百亿的 IP 衍生品,证明了人们愿意为不具备任何实用功能的东西付费,只要它承载了某种情感价值。
如果一个机器人能用人类的方式回应你的情绪,它的上限显然不止于此。
胡宇航高考考砸了,入学后开始拼了命地证明自己,每学期专业第一,主修课全满分。但决定出国时,第一次托福只考了 40 多分,而基准线是 100 分。他在申请截止前的窗口期考了 9 次托福、3 次 GRE。最后一次终于过线。
他回忆这段经历时说:我觉得可能是未来的我,帮了一下过去的自己。
过去的求学经历也解释了他身上一种很特别的气质。他说自己最看重的品质是韧性。招人的时候,他偏向看一个人的经历是否充满挫折。
他特别喜欢打比赛的人,喜欢 RoboMaster 机甲大师出来的那群孩子。因为他知道打比赛太苦了,你得牺牲所有休息时间,还要在比赛前一晚九点设备突然坏了的时候硬着头皮排查到凌晨六点。
他自己就有过这样的经历:无人避障小车比赛前夜,红外传感器干扰导致整块板子瘫痪,老师都说算了,他不肯。排查到凌晨,最后赶在发车前修好了。
他在管理上也有些不太常规的做法。比如他从来没跟员工聚过餐。他说他担心聚餐会把酒桌文化和不必要的社交压力带进公司。他希望大家是因为热爱工作聚在一起,而不是被辈分感绑定。
他接受现阶段能真正相信人脸机器人有用的人是极少数。很多人加入是为了名利或者觉得成功率高。但有一个底线:你可以怀疑方向,但不能在内部一边拿薪水一边到处说方向不行。
我在他的视频和社交媒体表达中感受到一种罕见的坦率。B 站粉丝叫他 U 航,管自己叫电子股东。
有人问为什么视频大多展示外观而很少展示交互,他说:有没有可能不是因为短板,而是因为我们不想过度展示优势?竞争太激烈了,有些大招还是要藏着。说完又补了一句:不过说实话,我们也没有刻意规划。
说到底,首形科技今天做到的事情,在两年前是不可想象的。2024 年创业初期,投资人看到他的原型机器人,第一反应是:这玩意能干啥?还有人问:美国有对标公司吗?因为美国没有做,所以觉得没意义。而现在,大家 180 度转弯,变成了:你这个产品什么都能干。
人形机器人如果有最终形态,胡宇航说,那一定会是有头有脸。
我不确定他是对的。但我确定的是,一旦你和 Origin F1 对视超过三秒,你就很难再把它当成一台机器了。