具身智能首份行业标准正式实施，构建统一的基准测试框架

2026年，具身智能机器人进入快速量产阶段，但一个令采购方头疼已久的困境是每家企业都在宣传自己的“任务成功率”，但彼此之间缺乏统一的测量标准。实际中的情况是，有人用仿真环境自测任务成功率，有人用特设的演示场景测试任务成功率，还有人用工业场景的数据标注家用场景。

6月1日，YD/T 6770-2026《人工智能关键基础技术具身智能基准测试方法》正式实施。这个由工信部批准、中国信息通信研究院联合40余家单位起草的国内首份具身智能行业标准，正式带领具身智能评测迈入“有标可依”的新阶段，为这场混乱的竞争按下终止符。

从标准的内容来看，该标准规范了在仿真环境和真实环境下，开展具身智能基准测试的环境设置、任务库构建、测试过程和指标计算等方法，适用于对技术提供方提供的具身智能系统（包括模型，部署模型的整机系统）开展“感知-决策-执行”全链路能力测试。

同时，该标准还构建了统一的基准测试框架，提出了覆盖静态仿真测试、动态仿真测试、真实环境测试和组合式测试四种方法的评测体系，用于评估具身智能系统的基础能力、认知推理能力以及全链路闭环能力。

随着该标准正式实施，具身智能基准测试评测项目也将依据其开展，目前已开放工业场景、家庭场景、零售场景、清洁场景和巡检场景五个大场景的15个子场景。工业场景子场景涵盖工件分拣、料籍搬运、包裹分拣；家庭场景子场景包括桌面分拣、叠衣服和做咖啡；零售场景的子场景包括物品打包、商超分拣、售卖饮料；清洁场景的子场景包括地面分拣、桌面擦拭和洗漱台整理；巡检场景的子场景包括自主开关门、按下按钮和移动报警。

针对每个测试场景，该标准还设置了基础级（T1）、增强级（T2）、挑战级（T3）三种任务难度，全面考查模型或整机系统在真实场景下的智能水平和作业能力边界。

可信的评测体系是连接技术研究与大规模产业应用的桥梁和标尺，该标准将为行业建立互信基础，其实施对于具身智能行业发展将产生三方面的深远影响。

其一，能力评估依据统一，指引技术迭代。

中国信通院有关负责人表示，此前，各厂商发布的性能数据大多来自私有测试环境，标准不统一，采购方无从判断真伪。YD/T 6770-2026建立的是一套公开的基准测试方法——任何一家企业声称的“任务成功率”，都将在同一把尺子下接受检验。这将倒逼企业在真实能力上展开竞争，而非在宣传话术上内卷。

其二，可信的采购依据开始形成。

某机器人企业有关负责人评价称，该标准统一了评测标尺，使不同技术路线在相对一致的框架下可比、可测，降低了研发成本，为产业规模化落地护航。同时，对下游的家电企业、康养机构而言，引进服务机器人的决策逻辑将从“听谁家吹得好”转向“看谁家测得实”。这一转变，是家用服务机器人从试点走向规模化的必要前提。

其三，竞争逻辑正在迁移。

当减速器、无框力矩电机、灵巧手等核心零部件逐步实现国产替代、硬件方案趋于收敛，行业竞争的重心正在向两个方向集中：场景数据的质量和规模，以及基于标准化测试持续迭代的能力。YD/T 6770-2026的实施，恰恰是这一趋势的制度确认。

具身智能首份行业标准正式实施，构建统一的基准测试框架图1