把具身智能拉回真实世界：EAIDC与一场“真机评测”的开始｜甲子光年

EAIDC助力具身智能从技术演示迈向工程落地。

作者｜拾月

编辑｜栗子

如果说具身智能的浪潮由AI带动，那其发展脉络，也在不可避免地沿着AI的既有范式展开。

尤其是在模型评测上，这种惯性已经十分明显。过去一段时间，具身模型的能力验证，很大程度上延续了大语言模型的路径——在虚拟环境中进行评测，在标准化任务中进行横向对比。

但问题也正在这里逐渐显现。

仿真环境可以加速迭代，却难以还原真实世界的复杂性。sim2real的GAP始终存在，使得模型在“仿真中成立”，并不等同于在现实中可用。正如业内多位从业者所指出的，具身智能不同于纯数字智能，它的能力必须在物理世界中被反复验证，而非通过大规模虚拟试错完成收敛。

自变量联合创始人兼CTO王昊也曾提到，长期依赖仿真评测，不可避免会掩盖模型能力的真实边界。放眼国内外，头部模型厂商已经逐渐形成共识：评测，正在成为具身智能发展的关键瓶颈，而行业迫切需要一个“真机演武场”。

在刚刚落幕的EAIDC 2026上，这样一个“演武场”，第一次被系统性地搭建出来。

1.一个“懂模型”的团队，做了一场不一样的比赛

如果仅从形式上看，EAIDC是一场开发者大赛。但从赛制设计来看，它更像是一场由“模型视角”反推出来的能力测试。

这种差异，体现在几个关键层面。

首先，是对模型路径的开放。比赛并没有限定模型，参赛者可以自由选择不同的开源具身模型，包括各类国内外VLA 。这一设定的背后，并不是“降低门槛”，而是尽可能提升开发者的创新性和分辨能力。

其次，是对数据范式的重新处理。比赛时自变量提供真机数据、无本体数据参与训练，让开发者基于自身思考和研究方向，选择数据配比。此时，开发者不再是主观判断哪种数据更好，而是透过数据训练后的模型能力得出结论。真正被检验的，不是数据路线对不对，而是数据是否能够在真实环境中支撑模型闭环。

再往下，是对能力边界的刻意放大。任务设计并非简单拼接，而是围绕抓取、语言理解、精细操作与长时序决策等核心能力展开，不同任务设置了不同权重，最终成绩不仅看步骤得分，也综合考量成功率和泛化表现，这种结构，使得比赛不只是考察“能不能做”，而是直接指向模型能力的上限“能不能落地”，如何跟产业应用结合。

相比于普通的“抓取拿放”，现在业内正缺乏这种复杂交互行为。据自变量机器人合伙人兼算法负责人甘如怡回忆称：选手在比赛最初面对“将环套在柱子上”任务成功率只有20-30%，后逐渐提升至60-70%，“拼写单词”任务也从极低成功率提升至40-50%。正是在这种高难度任务的“折磨”中，模型能力边界显然已不断外扩。

更关键的是泛化机制的引入。通过类似AB卷、随机环境切换等设计，考验泛化性。比赛的B卷在制度层面限制“刷题式优化”，迫使模型面对未知条件。这种机制，本质上是在把“泛化能力”从附加项，变成核心指标。如果说以往比赛更多是在验证“已知能力”，那么EAIDC更接近在测试“未知边界”。

值得一提的是，为了解决选手的后顾之忧，本次比赛使用的机械臂为自变量机器人自主研发的高性能六轴机械臂，此外自变量还提供算力支持。其中，机械臂专为AI而生，具备高精度、高响应的硬件性能，能更好复现模型能力。三天每天24小时的现场高强度运行。无论是大规模数据采集，还是模型推理部署，这套机械臂硬件系统都展现出稳定的承压能力，为参赛团队提供了可靠、一致的硬件保障，让选手能够专注于算法优化与任务实现。

这种设计和全套设施的提供并非偶然。只有真正理解模型在真实世界中的失效方式的具身智能企业，才会有这类具有导向性的赛制设计，才会刻意把这些不确定性写进规则，并且懂得开发者在模型训练中，哪些受制于硬件、数据的窘境。

2.当模型搭上“真机”，一切都会被放大

把具身智能拉回真实世界：EAIDC与一场“真机评测”的开始｜甲子光年图6

相比赛制上的巧思，这场比赛更本质的变化，其实只有一个：具身智能所有能力，必须在真机上成立。

这听起来像是一个直观的设定，但在具身智能领域，却是一个迟迟未被大规模实现的前提。

在EAIDC现场，上百条机械臂同时运行，所有任务均在真实物理环境中完成。从数据采集、模型训练到部署与评测，形成一个完整闭环，并在短时间内完成高频迭代。

在这样的环境下，一些长期被“仿真掩盖”的问题被迅速放大。例如，在抓取任务中，细微的位置偏差与接触不确定性，会直接影响成功率；在语言理解与操作结合的任务中，指令歧义与视觉误差叠加，会迅速放大系统不稳定性；而在长时序任务中，误差的累积效应，则往往成为决定成败的关键。

当前国内外顶级模型厂商都认可模型评测正成为重要瓶颈。就如同Physical Intelligence创始人兼CEO Karol Hausman在最近的采访中所强调的：“机器人的所有行为都需要在现实世界中完成，无法像大语言模型那样，通过数百万次的快速试错完成模型更新。这一过程耗时过长。因此，我们必须攻克机器人的评估难题”。

而自变量联合创始人兼CTO王昊观点更直接，具身智能的核心是交互学习，只有通过持续测试、观察与反馈，让机器在真实物理世界中解决复杂性问题。

与其说是自变量和其他单位一起办了场真机比赛，不如说具身智能苦仿真评测久矣。仿真评测虽便捷，却难以捕捉真实世界的力学反馈、遮挡、材质差异等变量；而真机评测让模型直接面对这些挑战，推动从Demo级“炫酷”向生产力级可靠性的转变。

从这个角度看，“真机评测”并不是比赛形式的升级，而是评价体系的转向：从可控环境中的性能比较，转向真实世界中的能力验证。

这也是具身智能从“技术展示”走向“工程能力”的分水岭。

3.两场圆桌为行业画像，

具身智能需要“赛产学研”协同

把具身智能拉回真实世界：EAIDC与一场“真机评测”的开始｜甲子光年图8

如果说比赛本身提供的是一个“观察窗口”，那么两场圆桌讨论，则给出了更直接的行业切片。

在第一场圆桌中，嘉宾围绕数据、模型与商业化路径进行了讨论，虽然并没有形成统一答案，但一些共识正在逐渐浮现。

首先，是对最火热的“数据”的再认识。与大模型不同，具身智能的数据获取成本高、闭环难度大，这使得“数据规模”不再是唯一指标。多位嘉宾提到，未来的数据路径将是分层的：低成本数据用于预训练，高质量真机数据用于微调，而如何在效率与效果之间取得平衡，将成为核心竞争力。换句话说，当前数据使用上绝对不是“非此即彼”，而是强调一种“合理配比”。

自变量王昊在群访中表示，“我们一直在坚持真实世界的数据采集，所有交互式学习和强化学习，最重要的数据来自于真机，我们会持续坚持。另外像穿戴式的、灵巧手的手套，我们很早就开始做，只是在整个规划当中，这几类数据要形成非常好的配比。2026年会有一个很大的变化，我们会越来越依赖于人的穿戴式或者Ego-Centric的方式采集数据，这是一个大趋势。但是永远要和真实机器人形成很好的配比，这个数据策略会决定以后模型的上限。”

其次，是对模型路径的现实判断。尽管VLA仍是主流，但其局限性也在逐渐显现，包括算力消耗、物理建模不足等问题。行业开始探索多模态融合、世界模型等路径，但整体来看，模型结构尚未收敛。

相比具体路线，自变量更强调一点：所有模型路径，最终都需要通过真实评测来决定方向。这也是其推动真机比赛的重要原因——评测本身，正在成为模型演进的“指挥棒”。

如果说以上讨论仍停留在“技术与产业”的层面，那么更深层的问题，其实出现在结构上——产学研的协同，正在成为具身智能的隐性瓶颈。

在第二场产学研圆桌中，一个关键词被反复提及：“割裂”。

学术界拥有模型与算法创新能力，但缺乏真机系统与数据闭环；产业界掌握场景与工程能力，却往往需要在效率压力下快速推进，难以进行长期探索；而开发者与开源社区，则处在两者之间，既缺少完整工具链，也难以复现真实系统。

这种错位带来的直接结果，是重复造轮子与创新效率的下降——学术成果难以落地，工程经验难以沉淀为通用方法，开源也往往停留在“可见但不可用”的状态。

可以说，具身智能已经从单点技术问题，演变为一个典型的系统工程问题，而系统工程，天然要求深度协同。

也正是在这一背景下，自变量的角色开始变得更加清晰。无论是通过比赛提供统一的真机环境与评测体系，还是开放数据、模型与工具链，本质上都在尝试解决同一个问题：让不同角色在同一个闭环中协作。

换句话说，这场比赛不仅是在评测模型，也是在测试一种新的协同方式。当学术、产业与开发者被放入同一个真实环境中，能力不再孤立存在，而开始相互放大。而这才是具身智能真正走向规模化之前，必须补上的那一块拼图。

也正是在这样的逻辑下，EAIDC的意义变得更加清晰——“具身智能平权时刻”。正如自变量创始人兼CEO王潜所说，具身智能门槛极高，必须依赖大规模开发者共同参与，才能形成真正有效的生态。而比赛所提供的，正是一套让开发者快速进入、在真实约束中验证并持续迭代的基础设施。

从这个意义上看，EAIDC不只是一次赛事，而是具身智能走向规模化之前，一个重要的起始点。

（封面图来源：自变量）

END.