VLA模型的「核心引擎」：盘点5类核心动作Token，如何驱动机器人精准操作？

资讯配图

相比单纯的视觉或语言模型，VLA模型不仅能看、能理解，还能把指令落实到真实世界的操作中。

这类能力背后的关键环节，正是「动作token（Action Token）」。

什么是动作token？

简单来说，它是VLA模型把感知信息和语言指令转化为行动的“中间语言”，类似于大语言模型（LLM）中的“语言token”。有了动作token，VLA模型能逐步分解复杂任务，把“你说的话”变成“机器人能做的事”。可以说，动作token是VLA模型架构的核心，也是决定模型效果的关键。

这篇文章，我们来盘一盘VLA中最有代表性的 5 类动作token，总结各个token的优缺点，以及未来的发展方向，让大家读完本文后，能够对VLA中的代表性token有所了解！

资讯配图

▲图1｜视觉语言动作模型都统称为“VLA”，但并不意味着它们都是接受相同的输入，产生同样的输出；不同模型往往根据其面向的任务场景，选择不同的action token©️【深蓝具身智能】编译

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

为什么有这么多token类型？

VLA模型的应用场景非常复杂：既要能理解「高层目标」如“整理房间”，也要能处理「低层动作」如“手臂向前伸5厘米”，中间还要知道环境中的交互点、目标物体位置等细节。

这就决定了：一种token很难搞定所有层次的信息。

“

有的token侧重任务规划，擅长“想明白要做什么”；

有的token聚焦环境交互，能告诉机器人“在哪里做、怎么做”；

有的token负责动作生成，直接给出可执行的路径或未来状态

还有的token用高抽象的潜在表征，把大量感知和动作信息压缩进一个隐空间，方便跨任务泛化。

我们可以简单的理解为：“动作token的设计几乎决定了VLA模型的方方面面，包括可解释性、数据需求、训练效率、跨任务能力等”。

这也是为什么当前研究会探索出多种token类型，来覆盖不同层次的问题。

VLA中4+1类最有代表性的token

动作token的类型其实很多，我们今天挑出最具代表性的4+1类来聊。它们从“高层规划”到“低层执行”形成一个完整链条，既能覆盖主流方法，又能看清趋势：

语言描述（Language Description）：用自然语言描述任务或动作，擅长任务分解和高层规划。
可供性（Affordance）：定位环境中的交互点或区域，让机器人知道“做什么、在哪做”。
轨迹 / 目标状态（Trajectory + Goal State）：直接预测动作轨迹或未来目标状态，关注低层执行。
潜在表征（Latent Representation）：用抽象隐变量来压缩信息，支持大规模泛化和端到端学习。
推理（Reasoning）：作为“胶水”，贯穿所有token，用多模态链式推理提升整体决策质量。

接下来，我们就按照这个结构，逐一看看这几类token各自的特点、代表工作、优劣势和未来方向。

语言描述（Language Description）

语言描述是目前最直观、最容易理解的一类动作token。顾名思义，它用自然语言来表达任务和动作，让模型把要做的事情“说出来”。

高层级：叫做 Language Plan，比如“拿起茶杯”、“把茶杯放在桌子上”，更像是任务分解。
低层级：叫做 Language Motion，比如“手臂向前伸”、“抓取手柄”，更接近物理动作。

这类token可以直接利用大语言模型（LLM）和多模态大模型（VLM）的强大语言理解与推理能力。这意味着，模型可以像我们一样“边思考边分步骤”，把复杂任务拆解成多个小目标，再逐一完成。

代表性工作：
SayCan、PaLM-E、Hi Robot、π0.5、RT-H

资讯配图

▲图2｜语言描述动作token示例©️【深蓝具身智能】编译

在优势方面，语言描述token最突出的特点是可解释性强。

人类用户和研究者可以直接通过生成的自然语言看到模型的计划，这让模型决策过程更透明。其次，它非常适合长时序、多步骤任务，因为自然语言本身天生具备分解任务、表达因果关系的能力。此外，语言数据极为丰富，VLA模型能够直接利用互联网级的大量开源数据完成预训练，这也是语言描述token的一大好处。

不过，语言描述token也存在挑战。

首先，它的表达精度有限，尤其是遇到复杂、细腻的操作时，自然语言的抽象描述可能过于模糊，容易带来执行歧义；其次，这类token的生成通常是逐步进行的，导致执行延迟较高，在需要实时响应的高频控制任务中显得不够高效。

未来的研究方向在于两方面：

一方面，语言描述token需要与视觉和环境状态更深融合，避免出现“说得出来却做不到”的情况；
从长远来看，语言描述token可能更偏向于承担高层决策和任务分解的角色，再与其他低层token（例如轨迹或潜在表征）形成分层体系，提升整体执行效率。

可供性（Affordance）

如果说语言描述token是“会思考”，那么可供性token就是“会看环境”。

它直接回答两个问题：做什么和在哪里做。换句话说，模型需要理解环境中有哪些物体可以交互、哪些部位适合操作，并把这些信息编码成token传递下去。

可供性token有几种典型表现形式：

关键点（Keypoint）：比如茶杯的手柄，是交互的最佳位置；
目标框（Bounding Box）：用方框锁定目标物体的大致区域；
分割Mask（Segmentation Mask）：精确到像素级别，把物体或交互区域“抠”出来；
可供性图（Affordance Map）：更密集地标注环境中每个区域可以做什么动作。

代表性工作
VoxPoser、DexGraspVLA、ROCKET-1、ManiFoundation、CoPa

资讯配图

▲图3｜Affordance动作token示例©️【深蓝具身智能】编译

这类token的最大优势是和环境状态绑定紧密，位置感知能力很强。机器人不仅知道自己和目标物体的位置关系，还能直接利用可供性信息指导交互操作。

但是，可供性token也面临一些挑战。

首先，它对感知质量高度依赖，容易受到视觉噪声、遮挡或光照变化的影响而出错。其次，动态场景处理困难，如何实时更新可供性信息仍是难点。第三，大部分方法停留在2D图像层面，对真实3D空间结构的理解不够深入，这会限制机器人在复杂环境中的操作能力。

未来的改进方向主要有三点：

一是提升3D建模能力，让机器人对环境有更真实的空间理解；
二是融合时序信息，预测环境中未来可能的交互机会，而不仅仅是静态判断当前状态；
三是与其他token深度联动，例如先通过语言描述确定目标，再用可供性token选择最优交互点，最后生成轨迹完成动作，这样能提升整个体系的稳定性和泛化能力。

轨迹 / 目标状态（Trajectory + Goal State）

轨迹（Trajectory）和目标状态（Goal State）这两类token紧密相关，都与“未来预测”有关。它们代表了机器人如何在低层执行动作的不同思路：「轨迹」是直接预测动作路径，而「目标状态」是预测未来应该到达的状态。

从定义上看，轨迹token就是一串按时间排序的空间状态，描述机器人或物体的运动路径；目标状态token则是预测未来的目标图像、点云或视频帧，作为中间目标引导规划器执行。

这两类token都有一个共同特点：可执行性强。

代表性工作
RT-Trajectory、FLIP、HAMSTER、3D-VLA、CoT-VLA

资讯配图

▲图4｜Trajectory与Goal动作token示例©️【深蓝具身智能】编译

轨迹和目标状态token的优势主要体现在以下几个方面：

首先，它们和控制器对接天然契合，预测结果可以直接转化为低层动作指令，这让机器人在执行任务时更加高效；
其次，这类token有助于长时序动作规划，尤其是在需要跨越多个状态才能达成目标的任务中，轨迹或目标状态提供了清晰的参考路径。

然而，这类token也有明显的挑战。

轨迹token语义信息较弱，通常只是物理路径，并不能表达为什么要这么走，容易在遇到未知场景时“迷路”。目标状态token虽然引入了视觉语义，但生成高质量、连续性强的目标状态本身非常困难，尤其是在长时序和开放环境下，预测误差会不断累积，导致机器人执行失败。

未来的发展方向包括两方面：

一是与世界模型（World Models）深度结合。通过学习对环境动态的预测，模型能够更准确地生成轨迹和目标状态，减少误差累积；
二是强化多模态语义约束，让轨迹和目标状态不仅仅是几何上的合理，还要符合任务语义。例如结合语言描述token确定任务目标，再用可供性信息选择合理交互点，最后用轨迹或目标状态引导执行。

可以预见，轨迹和目标状态token未来仍会是低层执行环节的主力，尤其是在需要真实机器人控制的应用中。

潜在表征（Latent Representation）

潜在表征（Latent Representation）是动作token中抽象程度最高的一类。

它试图用一组高维的隐变量把感知、语言和动作信息压缩在一起。这类token通常通过专门的预训练方法获得，能够在不同任务和场景中泛化使用。

代表性工作
GO-1、UniVLA、GROOT-2、QueST

资讯配图

▲图5｜Latent Representation动作token示例©️【深蓝具身智能】编译

潜在表征token的优势非常突出：

首先，它具备极强的数据利用能力。由于训练时可以直接用大量“无动作标签”的人类视频或跨任务数据，数据成本远低于标注轨迹或语言计划；
其次，它的表示能力很强，可以同时融合感知和动作信息，支持跨任务、跨机器人形态的迁移，这对开放世界任务尤其有价值。

不过，潜在表征token最大的短板是可解释性差。

这些隐变量是经过神经网络学习的抽象表示，人类很难理解它们具体含义，因此当模型出错时，几乎无法定位问题。此外，目前的潜在空间粒度和任务对齐性不足，容易出现信息过于稀疏或与任务目标脱节的情况。

未来的研究方向主要集中在三个方面：

一是提升潜在空间的粒度和任务对齐性，让隐变量更细致、更符合任务逻辑；
二是加强多模态融合，潜在表征不只是“视觉+动作”，还要能够融合语言、触觉甚至音频信息，从而提升泛化性；
三是探索潜在表征和其他token的联动，用它来作为“核心信息中枢”，再结合语言描述、高层规划或轨迹token来构建分层的VLA架构。

潜在表征token的方向与大模型的发展趋势高度契合，它像是VLA领域的“端到端黑箱”。虽然挑战仍多，但一旦潜在空间设计得当，模型将拥有极强的泛化能力和训练扩展性，这也是为什么很多前沿工作正在加大这方面投入。

推理（Reasoning）

在前面几类token中，我们介绍了语言描述、可供性、轨迹/目标状态和潜在表征，它们各自承担着任务分解、环境理解、动作执行和信息抽象等不同角色。但实际上还有一类更“隐形”的token贯穿其中，它就是推理（Reasoning）。

推理token并不直接输出动作，而是通过类似“思考链条”的方式，帮助模型生成更合理的决策。它可以用自然语言、逻辑步骤，甚至是多模态信息的组合来表达模型的思考过程，目的就是让决策过程更稳健、更具适应性。

代表工作：
ECoT、DriveVLM、RAD、Inner Monologue

资讯配图

推理token的价值可以体现在三个方面：

提升高层规划质量：通过多步推理，模型能够更准确地理解任务目标并制定计划，避免“一步到位”的草率决策；
增强低层执行的鲁棒性：推理token能动态结合环境反馈调整决策，让轨迹或目标状态预测更符合实际；
提供自我修正机制：在执行过程中，推理token可以充当“检查员”，帮助模型发现并修正偏差，这在动态或不确定环境中尤其关键。

同样的，推理token也面临诸多挑战：

首先是计算延迟，链式推理往往意味着更多步骤和计算量，这对于实时任务来说是个不小的负担。其次，如何设计一种既灵活又高效的推理机制仍是研究难点，尤其是要能自适应地决定何时深入推理、何时直接执行。

未来的发展方向包含三个方向：

推理token将从单一语言推理扩展到多模态推理，结合视觉、语言、动作等信息形成更完整的决策链条；
模型会更多引入Test-time Adaptation（测试时自适应），即根据环境反馈动态调整推理深度和内容，以在保持效率的同时提升鲁棒性；
更重要的是，推理token不再是孤立存在，而会成为连接高层规划和低层执行的“胶水”，让不同类型token更好地协同工作。

可以说，Reasoning是帮助VLA模型“更像人类思考”的关键。它本身不是单独的输出形式，而是贯穿在任务分解、环境理解、动作生成的各个阶段，使整个VLA体系更加可靠和智能。

总结

通过对语言描述、可供性、轨迹/目标状态、潜在表征四大类token，以及贯穿全局的推理（Reasoning）token的分析，可以发现：

不同token类型并不是彼此割裂的，而是互为补充，共同构成了VLA模型的“感知—规划—执行”闭环。

语言描述token擅长高层语义规划；
可供性token强于环境交互定位；
轨迹和目标状态token直接驱动低层执行；
潜在表征token则以抽象的隐空间整合多模态信息；
而Reasoning token就像“胶水”，贯穿各个环节，让模型在执行任务时具备多步思考与自我修正的能力。

未来，VLA模型的发展方向将更加多元化和融合化：

多种token深度融合：高层用语言描述或代码进行任务分解，中间层结合可供性、目标状态增强对环境的理解，底层用轨迹或潜在表征直接驱动执行。这样的多层级token架构能提升整体鲁棒性和泛化能力。
从模型走向智能体（Agent）：VLA模型不再只是被动接收指令，而会逐渐具备主动探索、记忆、规划和反思能力，形成完整的认知闭环。这意味着未来的VLA系统将更像“智能体”，能够长期自主运行、持续适应新环境。
与世界模型和强化学习结合：未来的VLA需要更好地预测环境动态，并通过自我探索不断提升性能。世界模型将提供长期预测能力，而高效的强化学习算法能帮助模型从真实环境中习得更多行为策略。
模型、数据和硬件协同进化：现实世界极为复杂，仅靠模型突破是不够的。大规模高质量的具身数据和更灵活的机器人硬件是推动VLA落地的必要条件，三者需要同步发展。
安全与人类价值对齐：随着VLA模型能力提升，其决策过程和执行行为必须更透明、可控，未来研究应更多考虑安全性与对齐问题。