工业机器人技术新资讯平台获悉在具身智能领域,“社会性” 始终是难以跨越的障碍——现有视觉 - 语言导航(VLN)方案要么依赖静态单轮指令,无法应对动态场景;要么缺乏社交交互能力,难以模拟真实人类协作;要么仿真环境脱离现实,导致模型泛化性差。
而由清华大学人工智能研究院提出的 FreeAskWorld,用 “LLM 驱动的交互仿真 + 方向询问任务(Direction Inquiry Task)” 的创新思路,打破了这一困局:既借助 LLM 实现人类行为模拟与动态指令生成,又通过闭环交互框架支持机器人主动求助与实时适应,最终在室内外混合场景中,实现了 “社交化、动态化、真实化” 的具身导航与交互。
FreeAskWorld 官方项目页:https://github.com/AIR-DISCOVER/FreeAskWorld
FreeAskWorld 数据集:https://huggingface.co/datasets/AstronautPENG/FreeAskWorld
为什么要重构具身智能的仿真框架?
当前 VLN 方案陷入了 “三重困境”:要么依赖静态指令,无法应对动态目标;要么缺乏社交认知,难以理解人类行为;要么仿真环境单一,无法适配真实世界的复杂性,核心问题可归结为 “无法同时兼顾‘社交交互性’‘动态适应性’与‘场景真实性’”:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
这些方案都忽略了一个关键:具身智能的核心是 “人与环境的动态交互”—— 既需要能模拟人类行为与社交规则的仿真环境,又需要支持机器人主动交互、实时调整的闭环机制。FreeAskWorld 正是借鉴这一逻辑:用 LLM 驱动的仿真框架构建真实社交场景(解决场景真实性与社交交互性),再通过方向询问任务实现 “交互 - 导航 - 再交互” 的闭环(解决动态适应性),最终达成 “从静态指令到动态交互” 的完整链路。

FreeAskWorld:如何用 “LLM + 闭环交互” 实现社交化具身智能?
FreeAskWorld 的核心设计可概括为 “以 LLM 为行为中枢,以闭环交互为核心流程,串联‘人类行为模拟 - 动态指令生成 - 社交导航执行 - 多模态数据记录’ ”。它既保留真实场景的复杂性,又通过主动交互机制提升机器人的环境适应能力,具体分为三大核心组件与四大核心功能:
核心组件 1:LLM 驱动的人类仿真模块(People Simulation)—— 社交交互的 “真实伙伴”
人类仿真模块是 FreeAskWorld 的核心,它通过 LLM 生成多样化、符合社交规则的人类行为,为机器人提供真实的交互对象,其设计逻辑围绕 “外观 - 行为 - 语言” 三维度展开:

外观生成:多样化虚拟人类形象
-
基于 SMPL-X 模型构建人体网格,通过随机调整身高、体重等形状参数,生成不同体型的虚拟人类; -
结合 Multimodal LLM 与 UV 映射技术,根据语义属性(性别、职业、种族)生成纹理,同时复用 Synbody 数据集添加衣物、发型等细节,提升视觉真实感。
行为规划:符合社交规则的动态行为
-
两阶段生成框架:先通过 LLM 生成人类档案(年龄、文化背景、职业),再根据场景布局生成每日日程(含时间分段与地点分配); -
动画控制:采用 MotionX 动画库,通过动作混合技术实现行为平滑过渡,支持行走、指路、交谈等社交动作。
语言风格:个性化导航指令生成
-
基于人类档案分类导航风格,核心维度包括地标使用频率、方向类型(相对 / 绝对方向)、距离描述精度、语句长度; -
结合场景地理信息(如城市布局是网格型还是不规则型),通过 LLM 生成符合人类习惯的导航指令,例如欧洲场景多用地标导航,美国网格城市多用街道名称导航。
核心组件 2:方向询问任务(Direction Inquiry Task)—— 动态交互的 “核心场景”
方向询问任务是对传统 VLN 任务的扩展,允许机器人在导航过程中主动向人类求助,通过多轮交互获取关键信息,其核心流程为:
-
机器人接收初始导航目标,开始自主导航; -
若遇困惑(如相同店铺出现在不同方向),主动向附近人类发起询问; -
人类通过 LLM 生成个性化导航指令; -
机器人解析指令并调整导航路径,若仍未到达目标,重复询问流程; -
成功抵达目标后,记录完整交互数据(对话、轨迹、传感器数据)。
该任务通过七大指标全面评估机器人性能,核心指标包括:
-
成功率(SR):抵达目标阈值范围内的任务占比; -
路径长度加权成功率(SPL):兼顾导航成功与路径效率; -
导航误差(NE):最终位置与目标的平均距离; -
询问次数(NDI):每轮任务的平均求助次数,反映机器人自主决策能力。
核心组件 3:多模态数据集(FreeAskWorld Dataset)—— 模型训练的 “数据支撑”
数据集通过统一 pipeline 生成,涵盖室内外混合场景,包含 63,429 帧标注样本与 17 小时以上交互数据,核心数据类型如下:

-
视觉数据:全景 RGB 图、6 个 90° 视角图、深度图、语义分割图、实例分割掩码;
-
交互数据:对话历史、导航指令、机器人轨迹;
-
场景数据:2D 占用热图、3D 边界框、环境元数据(天气、时间);
-
标注信息:16 类核心物体类别(车辆、行人、街道设施等)。

与现有 VLN 数据集相比,FreeAskWorld 具有三大优势:
-
场景混合:同时覆盖室内外场景,更贴近真实应用; -
导航连续:支持连续动作空间,而非离散导航节点; -
指令更长:平均指令长度达 148 词,包含更丰富的社交与空间信息。
四大核心功能:构建真实仿真环境
动态环境系统
-
天气系统:模拟昼夜循环、雨天、雾天等,提升模型对不同光照与能见度的适应能力; -
交通仿真:基于路径图模拟车辆运动与交通规则,增加导航环境的动态复杂性。
机器人导航系统
-
全局路径规划:采用 A* 算法生成最优路径; -
局部避障:基于社会力模型(SFM)避免与行人、车辆碰撞,确保社交合规性; -
物理适配:支持 Unity 关节组件模拟真实机器人动力学,可通过 URDF 导入实体机器人模型。
闭环交互框架
-
基于 WebSocket 实现服务器端模型与仿真器的同步通信,支持 NAT 穿透与本地端口通信; -
提供多样化消息接口,传输传感器数据、控制指令与交互对话,实现实时闭环。
场景重建能力
-
基于体素生成 2D 占用热图,通过随机采样与碰撞检测估算空间占用概率; -
结合 3D 边界框与世界信息,生成场景数字孪生,支持开环评估与下游任务(如行为预测)。
实验结果:社交化具身智能如何超越传统方案?
FreeAskWorld 在开放环与闭环两种设置下开展实验,对比人类基线与主流 VLN 模型(ETPNav、BEVBert),核心结论可概括为 “交互提升性能、数据增强泛化、社交仍是瓶颈”:

人类基线验证:主动询问大幅提升导航成功率
-
不允许询问时,人类导航成功率仅 40.2%; -
允许主动询问后,成功率飙升至 82.6%,导航误差从 18.3 降至 3.49,证明交互是关键信息补充模态。
模型性能对比:微调后模型泛化能力显著提升
-
开放环设置:微调后的 ETPNav-FT 与 BEVBert-FT 模型,L2 误差较基线降低约 50%,BEVBert-FT 表现最优; -
闭环设置:微调模型在导航误差(NE)与最优导航误差(ONE)上均优于基线,但成功率仍为 0,主要受限于动态社交导航与长程规划能力; -
关键发现:BEVBert 始终优于 ETPNav,验证了地图基多模态预训练对空间推理的有效性。
场景适应性验证:复杂场景下的交互价值凸显
在包含相同店铺、动态行人的复杂场景中,传统模型易迷失方向,而支持询问的模型能通过与人类交互修正路径,证明 FreeAskWorld 能有效评估机器人的高阶认知能力(如自我评估、信息寻求)。
关键结论与未来方向
FreeAskWorld 的价值,在于为具身智能提供了 “用 LLM 模拟社交行为,用闭环交互实现动态适应” 的清晰路径,核心启示与未来方向如下:
核心结论
-
交互是关键模态:主动社交交互不仅是社交信号,更是获取环境信息的重要途径,能弥补静态感知的不足; -
真实仿真需兼顾多维度:场景动态性(天气、交通)、人类真实性(行为、语言)、导航连续性,三者缺一不可; -
现有模型仍有短板:尽管微调后模型性能提升,但在社交合规导航、长程规划、动态障碍应对上,与人类表现仍有较大差距。
未来方向
-
任务扩展:支持更复杂的社交任务,如谈判、协作、长期信任建立; -
多模态增强:整合触觉、声音等模态,提升复杂场景(如黑暗、嘈杂环境)的适应性; -
工具优化:开发 Steam 端到端软件,降低使用门槛,扩展基准测试指标; -
视觉提升:利用生成模型提升仿真环境的视觉保真度,缩小仿真与现实的差距。
总结
FreeAskWorld 的出现,打破了 “具身智能要么缺乏社交性、要么脱离真实场景、要么无法动态适应” 的僵局——它没有陷入 “单一功能优化” 的误区,而是通过 “LLM 驱动的人类仿真 + 闭环交互任务 + 多模态数据集” 的简洁逻辑,实现了社交化、动态化、真实化的具身智能评估与训练。对于追求 “真实世界落地” 的服务机器人(如导航机器人、家庭服务机器人),这种 “以交互为核心” 的方案,为具身智能技术的产业化提供了极具参考价值的范本。