具身智能首份行业标准正式实施,构建统一的基准测试框架

电器微刊 2026-06-03 16:50

2026年,具身智能机器人进入快速量产阶段,但一个令采购方头疼已久的困境是每家企业都在宣传自己的“任务成功率”,但彼此之间缺乏统一的测量标准。实际中的情况是,有人用仿真环境自测任务成功率,有人用特设的演示场景测试任务成功率,还有人用工业场景的数据标注家用场景。

6月1日,YD/T 6770-2026《人工智能 关键基础技术 具身智能基准测试方法》正式实施。这个由工信部批准、中国信息通信研究院联合40余家单位起草的国内首份具身智能行业标准,正式带领具身智能评测迈入“有标可依”的新阶段,为这场混乱的竞争按下终止符。

从标准的内容来看,该标准规范了在仿真环境和真实环境下,开展具身智能基准测试的环境设置、任务库构建、测试过程和指标计算等方法,适用于对技术提供方提供的具身智能系统(包括模型,部署模型的整机系统)开展“感知-决策-执行”全链路能力测试。

同时,该标准还构建了统一的基准测试框架,提出了覆盖静态仿真测试、动态仿真测试、真实环境测试和组合式测试四种方法的评测体系,用于评估具身智能系统的基础能力、认知推理能力以及全链路闭环能力。

随着该标准正式实施,具身智能基准测试评测项目也将依据其开展,目前已开放工业场景、家庭场景、零售场景、清洁场景和巡检场景五个大场景的15个子场景。工业场景子场景涵盖工件分拣、料籍搬运、包裹分拣;家庭场景子场景包括桌面分拣、叠衣服和做咖啡;零售场景的子场景包括物品打包、商超分拣、售卖饮料;清洁场景的子场景包括地面分拣、桌面擦拭和洗漱台整理;巡检场景的子场景包括自主开关门、按下按钮和移动报警。

针对每个测试场景,该标准还设置了基础级(T1)、增强级(T2)、挑战级(T3)三种任务难度,全面考查模型或整机系统在真实场景下的智能水平和作业能力边界。

可信的评测体系是连接技术研究与大规模产业应用的桥梁和标尺,该标准将为行业建立互信基础,其实施对于具身智能行业发展将产生三方面的深远影响。

其一,能力评估依据统一,指引技术迭代。

中国信通院有关负责人表示,此前,各厂商发布的性能数据大多来自私有测试环境,标准不统一,采购方无从判断真伪。YD/T 6770-2026建立的是一套公开的基准测试方法——任何一家企业声称的“任务成功率”,都将在同一把尺子下接受检验。这将倒逼企业在真实能力上展开竞争,而非在宣传话术上内卷。

其二,可信的采购依据开始形成。

某机器人企业有关负责人评价称,该标准统一了评测标尺,使不同技术路线在相对一致的框架下可比、可测,降低了研发成本,为产业规模化落地护航。同时,对下游的家电企业、康养机构而言,引进服务机器人的决策逻辑将从“听谁家吹得好”转向“看谁家测得实”。这一转变,是家用服务机器人从试点走向规模化的必要前提。

其三,竞争逻辑正在迁移。

当减速器、无框力矩电机、灵巧手等核心零部件逐步实现国产替代、硬件方案趋于收敛,行业竞争的重心正在向两个方向集中:场景数据的质量和规模,以及基于标准化测试持续迭代的能力。YD/T 6770-2026的实施,恰恰是这一趋势的制度确认。




具身智能首份行业标准正式实施,构建统一的基准测试框架图1


具身智能首份行业标准正式实施,构建统一的基准测试框架图2




声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试
more
刷榜AI全挂了!Meta斯坦福地狱级测试,GPT/Claude/Gemini交出0分
英伟达Vera CPU基准测试,Olympus内核实现ARM架构史上巅峰性能
全球首条35微米功率半导体超薄晶圆工艺及封装测试生产线在上海建成
美国拟全面禁止中国实验室测试美国电子产品;全球最薄GaN芯片诞生;地瓜机器人再获1.5亿美元投资
存储测试突围,爱德万 vs 精智达
太空算力迈出关键一步,加拿大商业航天公司Kepler与Sophia联手测试轨道GPU集群
基于 NVIDIA Isaac Sim™ 的车企产线巡检机器人仿真测试实践
豆包澄清“降质逼氪”谣言,专业版测试中基础服务仍免费
FSD入华前奏?曝特斯拉国内9城急招智驾测试员;曾对标乔布斯!大疆的对手GoPro要被卖了:3年亏损近40亿;字节Seedance 2.1即将发布
库克:AI是对人能力的放大,而非取代人;月之暗面回应 Cursor 套壳 Kimi K2.5;曝 ChatGPT 广告测试推进缓慢|极客早知道
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号