登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景

智猩猩 2026-02-04 14:00

随着MLLMs的快速发展,当前的研究热点正从单模态文本处理转向更复杂的多模态与具身智能领域。具身智能侧重于在高保真的仿真环境中利用物理交互与动作反馈训练智能体,而并非依赖传统的标注数据集。然而现有的仿真平台主要支持一种或少数几类具身任务,缺乏一个能覆盖从简单操作到复杂交互的通用仿真环境。

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图2

 

针对这一问题,北京通用人工智能研究院(BIGAI)开源通用具身智能仿真平台TongSIM。该平台构建了一个 “全场景、多任务、高保真” 的仿真环境,内置了115个精细建模的室内场景与完整的户外城市环境,为智能体提供了极其丰富且贴近真实世界的练习场。TongSIM开源上线后,迅速登上Huggingface首页数据集热度趋势榜单第一名

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图3
  • 论文标题:

    TongSIM: A General Platform for Simulating Intelligent Machines》

  • 论文链接:

    https://arxiv.org/abs/2512.20206

  • 项目主页:

    https://tongsim-platform.github.io/tongsim

  • 开源代码:

    https://github.com/bigai-ai/tongsim

 

1

TongSIM 平台

 

TongSIM是一个面向通用智能机器的综合性、多功能仿真平台。该平台基于仿真器UE5.6构建,充分利用了其在实时渲染、物理模拟和大规模场景管理方面的原生优势 。通过一系列自研的接口封装,TongSIM能够支持高效的通信、调试与控制,能够精准管理复杂的场景中的物体语义标签、物体状态和智能体(Agent)状态数据,为智能体的训练、测试提供了丰富的支持。

 

TongSIM系统架构如图2所示。为了便于集成多样化的智能体和模型,提供了全面的Python应用程序编程接口。

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图4

 

1.1 高保真场景

 

TongSIM包含了115个完善的高保真室内场景,满足多样化任务需求,并扩展支持城市规模的户外场景。

 

在室内场景,TongSIM能够支持复杂的混合日常生活任务,共115个不同的室内场景。这些场景涵盖住宅单元、咖啡馆、零售店等多样化类别。

 

户外大场景涵盖住宅、运动场、学校、快递站等多种功能场景,大大拓展了具身智能体的任务支持范围。户外环境配备完整路网和交通系统,使得具身智能体能够在不同区域之间无缝导航,为长周期、高复杂度任务提供保障。

 

1.2 智能体

 

TongSIM 提供多样化的智能体,既可作为训练和评估期间 AI 模型的具身智能体,也可作为NPC以促进任务执行并增强环境真实感。为了控制这些NPC的行为,TongSIM实现了一种混合自动控制机制,由基于规则的和大语言模型驱动。

 

TongSIM为这些智能体配备了多功能的行为能力和多样化的视觉外观,允许外部 AI 模型通过 Python API 驱动具身智能体。支持的动作空间涵盖多个复杂度级别,包括运动基元(如点头、挥手、转身)、针对特定坐标或对象的目标驱动行为(如注视、点对点导航),以及基本的对象交互(如抓放、开关门、坐下/站起)。

 

此外,该平台支持涉及多步骤序列和高层语义的复杂活动,例如消耗物品、倾倒液体、拖地、擦拭表面、阅读、切食物以及睡眠或清洗等日常活动。

 

1.3 平台特性

 

TongSIM利用Unreal Engine 5内置的Chaos物理引擎,实现了刚体动力学、流体模拟、破坏效果、布料模拟等功能。该特性使得TongSIM适用于构建相对复杂的3D场景,能够支持机器人等具身智能体的测试。

 

同时,研究人员还尝试将另一物理仿真库 (NVIDIA Flex)集成到TongSIM中。该库使用统一的粒子表示所有对象类型,允许不同的仿真材料之间进行无缝交互。

 

2

基准测试

 

2.1 单智能体任务:空间探索与导航

 

为评估智能体自主探索与导航的能力,设计了一个专门用于评估智能体探索与导航性能的基准测试。该基准测试围绕一项具有挑战性的清理任务展开,如图10所示,要求智能体在充满障碍物、杂乱的多房间室内环境中导航,收集散落的纸球。

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图5

 

在此基准测试中,将任务空间的体积体素数据投影到二维平面以生成占据栅格。采用成功率效率两个关键指标来评估智能体性能。成功率衡量智能体在预设的最大步数限制内成功探索整个任务空间并清除所有散落碎片的试验回合比例。效率则根据步数消耗量化智能体的时间性能。

 

实验结果如表2 所示,对比了人类操作者与RL智能体(PPO)的性能。RL智能体的成功率仅为60%。该智能体能够在一定程度完成清理任务,但在成功率和效率上均显著落后于人类。RL智能体存在杂乱环境中的避障能力不足及长程导航能力不足两大局限性。

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图6

 

2.2 多智能体任务:多智能体协同搜索


为评估复杂3D环境中的多智能体协作,研究人员提出了多智能体协同搜索(MACS)任务。该任务基于TongSIM平台构建,模拟了一个具有部分可观测性、以随机动态危险源和静态障碍物为特征的灾后洪水搜索场景,如图11所示。MACS的核心挑战在于评估多智能体的协作能力,还需要主动识别并规避在环境中的动态危险源,并实现高效导航。

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图7

 

研究人员评估了两种具有代表性的多智能体强化学习算法IPPOMAPPO。实验结果如表4所示。MAPPO算法实现了单智能体最高的平均回合回报19.24,而IPPO算法则为14.75。

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图8

 

2.3 人机混合交互任务

 

在城市街道级环境中,设计了一个基础的社会导航基准测试任务,要求一个机器人在高动态的人群中导航至指定目标位置,人群由随机生成智能体构成。此基准测试旨在评估机器人在复杂社会情境下的感知、规划及社会认知能力,如图12所示。

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图9

 

实验结果如表5所示。该任务评估了机器人对社交规则遵守和动态环境适应能力,机器人需要在密集人群中导航至目标点,反映其在真实社会生活场景中的适应性。

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图10

 

2.4 基础复合任务:家庭环境基准测试

 

研究人员提出了一个基于日常家庭环境的家庭综合任务基准测试,如图13所示。任务包括整理房间、摆放餐桌等,考验具身智能体的生活常识和综合推理能力。实验结果如表6所示。

 

登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图11
登顶Huggingface数据集热榜!通研院开源通用具身智能体训练场,内置115个室内与城市场景图12

 

3

总结

 

本文介绍了一个面向具身智能体的通用训练与评估平台TongSIM,旨在通过高保真仿真技术弥合仿真到现实的gap。TongSIM构建了一个 “全场景、多任务、高保真” 的仿真环境,包含115个交互式室内场景及大规模城市环境。

 

该平台涵盖从低阶操作到高阶社交的多类任务,包括单智能体任务、多智能体任务、人机混合交互任务、家庭综合任务以及高阶社交任务,为智能体提供了丰富且贴近真实世界的练习场,覆盖全能力维度。

END

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
开源短视频平台Skylight用户激增,成TikTok替代新选择
智谱开源轻量级OCR模型GLM-OCR,支持高并发与边缘部署
2025年AI工具大盘点:首选、平替、开源都在这
智谱携手华为开源GLM-Image,国产全栈算力实现多模态SOTA突破
昔日开源明星被AI逼落斩杀线!收入暴跌80%,75%工程师被裁
施密特警示欧洲:若不自建开源AI体系,恐将依赖中国模型
开源嵌入式编译器,和传统编译器有什么区别?
蚂蚁再把医疗AI卷出新高度!蚂蚁·安诊儿医疗大模型开源即SOTA
【RVEI】2025年度RISC-V产业发展回顾——开源架构引领AI时代计算变革
开源RISC-V汽车电子芯片创新联盟巡礼 | TASKING:发挥嵌入式开发工具优势,赋能RISC-V 在汽车电子领域 “狂飙”
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号