
人机情感交互进入一个全新的阶段。
作者丨清华AIR 赵昊团队

机器人也能拥有“表情管理”?传统机械面部系统长期受限于硬件结构单一、控制算法死板,常常难以实现细腻丰富的情感表达。如今,这一局面有望被彻底改写。近日,清华大学智能产业研究院(AIR)的赵昊团队,联合北京智源研究院(BAAI)、清华大学交叉信息研究院(IIIS)、北京航空航天大学、华大等多家机构,共同发布了名为Morpheus的高拟真机器人面部系统。Morpheus首次融合“混合驱动结构”、“自学习逆向建模”与“语音驱动情绪动画”三项关键技术,能够实时生成多种细腻表情。实验数据显示,它在情绪识别准确率、唇形同步误差、以及用户对自然度的主观评价等核心指标上均表现出色,标志着人机情感交互进入一个全新的阶段。
Project Page:https://jiawenyang-ch.github.io/Morpheus-Hardware-Design/
arXiv:https://arxiv.org/abs/2507.16645

Morpheus整体图:(a) 前视图与面部自由度;(b) 侧视图与脖子自由度;(c) Morpheus以开心的语气讲出“welcome!”

01
三大创新突破传统瓶颈
语音驱动情绪动画框架,让机器人“听懂”情绪:
基于 Transformer 的情绪-内容解耦,将输入语音分离为“语义内容”与“情绪特征”。结合情绪引导注意力机制,动态调整表情权重,生成 33 维 blendshape 系数。利用DTW(动态时间规整)技术,确保长句推理时唇形、情绪同步零滞后。

语音驱动生成面部表情的机制与自建模网络框架
混合驱动硬件平台“刚柔并济”
33 个舵机融合「刚性机构+线驱动」双重优势:眼部、口部等关键区域采用刚性驱动确保精准控制;鼻部、面颊等微表情区域采用线驱动,实现细腻纹理变化。硬件结构紧凑,3D 打印一体成型。纯刚性驱动无法处理细腻表情,纯线驱动则稳定性不足,Morpheus的混合设计结合两者优势,在紧凑空间内实现高自由度表情控制。

Morpheus机械结构设计:(a)前视图;(b)侧视图(外骨骼透明化);(c) Morpheus四模块:眉毛模块、眼睛模块、嘴模块、脖子模块。
硬件安装视频
自建模学习网络,让机器人“学会”表情
通过自建模,利用 MLP 网络在 5000 组随机电机指令—面部关键点数据中自动学习“电机空间→表情空间”的复杂非线性映射。只需输入目标表情即可实时求解任意虚拟表情的电机指令,无需人工标定。

02
情绪判断与唇形同步方面表现
Morpheus的突破不仅停留在技术概念层面,更通过严苛的实验数据证明了其性能表现。研究团队从三个维度进行深度解析:
情绪识别:
在“快乐、愤怒、厌恶、恐惧”四类测试中,快乐(90%)和愤怒(91%)的表情,其准确率较高,这反映了Morpheus生成动态且富有表现力动作的强大能力。而对于厌恶(66%)和恐惧(73%)的表情,相对较低的准确率表明这些表情更容易被混淆,表明它们之间的差异不够明显。

唇形同步:
模型在RAVDESS(有情绪)和HDTF(无情绪)语音上均实现了最低的LVE和EVE评分,这表明其在唇形同步性和情感表达方面具有卓越性能。

不同驱动的效果比较
研究人员比较了不同驱动模式(仅驱动嘴部、仅驱动眉毛、仅驱动刚性机构、混合驱动)在快乐下的表情结果,脸颊和鼻翼的细微表情运动幅度差异,表明了混合驱动的有效性。



03
Morpheus 25 种表情演绎
Morpheus的表情库不仅仅停留在基础的"喜怒哀乐",而是实现了25种精细表情的生成,覆盖日常交流、极端情绪甚至微妙微表情。表情不仅包括Ekman的六大基本情绪理论中的快乐(Happy)、悲伤(Sad)、愤怒(Angry)、恐惧(Fear)、厌恶(Disgust),还包括怀疑、满足、尴尬、害羞等表达复杂感情的复杂表情。

Morpheus生成的25个表情

04
语音驱动的表情生成结果
为了让读者更直观地感受 Morpheus 的情感张力,研究团队同步放出了多段 4K 高清演示视频(已上传至 YouTube 与 GitHub Release)。以下为核心片段一览:
Look at the sky
I'm going to the store.
I need to work late tonight.
I lost my keys.
The weather is changing.
It's time to eat.
The food smells good.
This is exactly what I've come to expect from you.
(更多视频请参考Project page网站:https://jiawenyang-ch.github.io/Morpheus-Hardware-Design/ )

05
更多技术细节
微型低噪舵机驱动
研究驱动方案主要采用了Guohua 9g舵机,工作噪音为45-50dB,比通用舵机MG90s的50-60dB噪音更小,同时提供超后者4倍的扭矩。
零度硅胶脸皮
脸皮采用零度硅胶材料,最贴近人脸硬度,是仿人体产品最常用的材料。通过对比多种厚度的受力变形效果,研究最终选择了4mm厚度的脸皮。

算法计算效率高
系统在NVIDIA Jetson AGX Xavier上以约150帧/秒的速度进行推理,以30帧/秒的速度生成虚拟表情,并以50Hz的频率控制舵机,从而实现虚拟表情与真实表情之间流畅且同步的对齐。

06
为下一代情感机器人奠定技术基座
Morpheus 不仅证明了“混合驱动+自学习”在复杂情感交互任务上的工业级可行性,更为未来机器人面部系统提供了可复用的技术栈。从实验室到量产,今天,Morpheus 让机器人拥有了“可量产、可进化”的表情;明天,它将把每一次微笑、每一次挑眉都沉淀为全人类共用的情感基础设施·。下一代情感机器人,不再是一座孤岛,而是一片可生长、可分享的新大陆。



未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。