RSS 2025 软硬件全开源,智源清华带来混动灵巧脸Morpheus

AI科技评论 2025-08-19 17:34
资讯配图

人机情感交互进入一个全新的阶段。


作者丨清华AIR 赵昊团队


                                                                                         资讯配图

机器人也能拥有“表情管理”?传统机械面部系统长期受限于硬件结构单一、控制算法死板常常难以实现细腻丰富的情感表达。如今,这一局面有望被彻底改写。近日,清华大学智能产业研究院(AIR)的赵昊团队,联合北京智源研究院(BAAI)、清华大学交叉信息研究院(IIIS)、北京航空航天大学、华大等多家机构,共同发布了名为Morpheus的高拟真机器人面部系统。Morpheus首次融合“混合驱动结构”、“自学习逆向建模”与“语音驱动情绪动画”三项关键技术,能够实时生成多种细腻表情。实验数据显示,它在情绪识别准确率、唇形同步误差、以及用户对自然度的主观评价等核心指标上均表现出色,标志着人机情感交互进入一个全新的阶段。

Project Page:https://jiawenyang-ch.github.io/Morpheus-Hardware-Design/

arXiv:https://arxiv.org/abs/2507.16645

资讯配图

Morpheus整体图:(a) 前视图与面部自由度;(b) 侧视图与脖子自由度;(c) Morpheus以开心的语气讲出“welcome!”

资讯配图

01

 三大创新突破传统瓶颈

资讯配图

语音驱动生成面部表情的机制与自建模网络框架

资讯配图

Morpheus机械结构设计:(a)前视图;(b)侧视图(外骨骼透明化);(c) Morpheus四模块:眉毛模块、眼睛模块、嘴模块、脖子模块。

硬件安装视频

通过自建模,利用 MLP 网络在 5000 组随机电机指令—面部关键点数据中自动学习“电机空间→表情空间”的复杂非线性映射。只需输入目标表情即可实时求解任意虚拟表情的电机指令,无需人工标定。

资讯配图

02

情绪判断与唇形同步方面表现

Morpheus的突破不仅停留在技术概念层面,更通过严苛的实验数据证明了其性能表现。研究团队从三个维度进行深度解析:

在“快乐、愤怒、厌恶、恐惧”四类测试中,快乐(90%)和愤怒(91%)的表情,其准确率较高,这反映了Morpheus生成动态且富有表现力动作的强大能力。而对于厌恶(66%)和恐惧(73%)的表情,相对较低的准确率表明这些表情更容易被混淆,表明它们之间的差异不够明显。

资讯配图

模型在RAVDESS(有情绪)和HDTF(无情绪)语音上均实现了最低的LVE和EVE评分,这表明其在唇形同步性和情感表达方面具有卓越性能。

资讯配图

研究人员比较了不同驱动模式(仅驱动嘴部、仅驱动眉毛、仅驱动刚性机构、混合驱动)在快乐下的表情结果,脸颊和鼻翼的细微表情运动幅度差异,表明了混合驱动的有效性。

资讯配图
资讯配图
资讯配图

03

 Morpheus 25 种表情演绎

Morpheus的表情库不仅仅停留在基础的"喜怒哀乐",而是实现了25种精细表情的生成,覆盖日常交流、极端情绪甚至微妙微表情。表情不仅包括Ekman的六大基本情绪理论中的快乐(Happy)、悲伤(Sad)、愤怒(Angry)、恐惧(Fear)、厌恶(Disgust),还包括怀疑、满足、尴尬、害羞等表达复杂感情的复杂表情。

资讯配图

Morpheus生成的25个表情

资讯配图

04

语音驱动的表情生成结果

为了让读者更直观地感受 Morpheus 的情感张力,研究团队同步放出了多段 4K 高清演示视频(已上传至 YouTube 与 GitHub Release)。以下为核心片段一览:

Look at the sky

I'm going to the store.

I need to work late tonight.

I lost my keys.

The weather is changing.

It's time to eat.

The food smells good.

This is exactly what I've come to expect from you.

(更多视频请参考Project page网站:https://jiawenyang-ch.github.io/Morpheus-Hardware-Design/ )

资讯配图

05

更多技术细节

研究驱动方案主要采用了Guohua 9g舵机,工作噪音为45-50dB,比通用舵机MG90s的50-60dB噪音更小,同时提供超后者4倍的扭矩。

脸皮采用零度硅胶材料,最贴近人脸硬度,是仿人体产品最常用的材料。通过对比多种厚度的受力变形效果,研究最终选择了4mm厚度的脸皮。

资讯配图

系统在NVIDIA Jetson AGX Xavier上以约150帧/秒的速度进行推理,以30帧/秒的速度生成虚拟表情,并以50Hz的频率控制舵机,从而实现虚拟表情与真实表情之间流畅且同步的对齐。

资讯配图

06

为下一代情感机器人奠定技术基座

Morpheus 不仅证明了“混合驱动+自学习”在复杂情感交互任务上的工业级可行性,更为未来机器人面部系统提供了可复用的技术栈。从实验室到量产,今天,Morpheus 让机器人拥有了“可量产、可进化”的表情;明天,它将把每一次微笑、每一次挑眉都沉淀为全人类共用的情感基础设施·。下一代情感机器人,不再是一座孤岛,而是一片可生长、可分享的新大陆。

//

推荐阅读

资讯配图

为什么中国只有一个 DeepSeek?


资讯配图

关于 DeepSeek 一体机落地真相,我们调研了 12 家上市公司

资讯配图

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
《黑神话》新作亮相/DeepSeek开源新模型,R2还没来/李想:只有我和雷军能做超级产品
行车记录仪别扔!我把它爆改成打游戏的「掌机」,附全套开源教程(硬件+软件)
DeepSeek开源新基础模型,但不是V4,而是V3.1-Base
实测Perplexity Pro平替模型,免费开源仅4B
英伟达开源9B参数小模型,比Qwen3快6倍
Nous Research新研究:揭示「Token效率」陷阱,开源大模型Token消耗最高超闭源10倍
RSS'25开源 | 破解机器人柔性物体抓取的难题!
本地也能玩转AI图片创作?腾讯3B开源模型实测:精准又轻便,统一生成理解,手把手教你部署
港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
0819资讯:DeepSeek V3.1开源|Qwen 上线Qwen-Image-Edit|谷歌强势开源Gemma 3 270M
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号