告别延迟！Dexmal&StepFun 联合研发，单 RTX 4090 让 VLA 模型实现 30FPS 实时机器人操控

引言：VLA 模型的 “速度困局” 与行业痛点

在机器人操控领域，视觉-语言-动作（VLA）模型凭借百亿级参数的强大泛化能力，成为推动通用机器人技术发展的核心力量。从工业场景的精密装配到家庭场景的服务交互，VLA 模型本应让机器人更灵活地应对复杂环境，但一个关键问题长期阻碍着其落地 ——延迟。

许多真实世界的机器人任务对时间有着严苛要求，例如抓取下落物体、实时避障等，往往需要在数百毫秒内完成 “感知-决策-动作” 的闭环。然而，传统 VLA 模型的一次前向传播通常需要上百毫秒，根本无法满足实时响应需求。更关键的是，33 毫秒（约 1/30 秒）是实现实时操作的 “生死线”：只有达到这个速度，才能完整处理 30FPS 的 RGB 视频流；若超过 34 毫秒，就不得不频繁丢弃帧，一旦关键事件出现在丢弃帧中，延迟会骤增，直接导致任务失败。

长期以来，行业普遍认为大型 VLA 模型无法在消费级硬件上实现实时运行，这一认知成为制约其大规模应用的核心瓶颈。

而近日，来自 Dexmal 和 StepFun（阶跃星辰）的研究团队发表的题为 “Running VLAs at Real-time Speed^[1]”的成果，彻底打破了这一局限。他们通过一系列创新优化策略，在单块消费级 RTX 4090 GPU 上，实现了 π₀级多视图 VLA 模型 30Hz 的推理速度，最高轨迹频率可达 480Hz，还在下落钢笔抓取任务中实现了 100% 的成功率，让 VLA 模型的实时应用成为现实。

告别延迟！Dexmal&StepFun 联合研发，单 RTX 4090 让 VLA 模型实现 30FPS 实时机器人操控图2

核心突破：从百毫秒到 27.3 毫秒的性能飞跃

（1）实测数据：碾压传统方案的速度优势

研究团队以经典的 π₀ VLA 模型^[2]为优化对象，在单块 RTX 4090 GPU 上进行了严格的性能测试，测试条件为 “空提示文本 + 63 段长度”，结果令人惊叹。优化后的模型在不同视图数量下均实现了突破性提升：单视图推理仅需 20.0 毫秒，双视图 27.3 毫秒，三视图 36.8 毫秒。

对比传统方案，这一成绩堪称碾压：朴素 PyTorch 实现的单视图推理需要 105.0 毫秒，即便是 openpi 项目的 JAX 优化版本，双视图推理也需要 53.7 毫秒。优化后的方案不仅将速度提升近一倍，更关键的是，它满足了 30FPS 视频流的全帧处理需求，端到端反应时间可控制在 200 毫秒以内，与人类在同类任务中的平均反应速度相当。

告别延迟！Dexmal&StepFun 联合研发，单 RTX 4090 让 VLA 模型实现 30FPS 实时机器人操控图3 — 表 1：不同方案在不同视图下的推理速度对比

（2）三层优化策略：从 “消除开销” 到 “榨干硬件”

如此显著的性能提升，并非依赖单一技术改进，而是一套覆盖 “开销消除-内核优化-理论验证” 的完整方案。

第一步：消除冗余开销，拿下 “低垂的果实”

优化的起点是朴素的 PyTorch 实现，其运行时间超过 100 毫秒，远未达到实时目标。团队首先瞄准了两类 “低开销高回报” 的优化点：

一是消除 CPU 开销。当前神经网络推理多由 Python 代码驱动 CUDA 内核，但当内核数量庞大时，Python 的执行开销会变得非常显著 —— 在 π₀ 模型中，单次推理需启动超过 1000 个内核，CPU 开销问题尤为突出。团队采用 CUDA 图机制，通过录制模型推理时的内核流，后续直接由 GPU 和驱动回放，彻底摆脱 Python 执行的额外消耗。这一操作让推理速度提升近两倍，大幅削减了朴素实现中的主要开销。

二是简化计算图。团队深入分析网络结构，发现部分计算可通过等价改写实现提速。例如，将 RMS 归一化层的仿射参数融合到后续线性层中，利用线性操作的结合律减少计算步骤；将动作时间编码中的两个连续线性层折叠为一个（因无非线性层间隔），同时对时间分支的结果进行预计算并融合到偏置向量中；还将 Q、K、V 的投影矩阵合并为一个大矩阵，通过张量切片获取各自结果，减少内核启动次数并提升并行度。这些改造共降低了 7-8 毫秒的延迟，进一步拉近了与实时目标的距离。

此外，团队还优化了图像缩放等外围环节：利用相机 ISP 支持的多分辨率输出，选择接近 224×224（模型输入尺寸）的 240×320 分辨率，再配合手工优化的缩放代码，将图像缩放时间控制在 60 微秒以内（桌面 x86 CPU 环境），几乎可忽略不计；同时采用固定 CPU 缓冲区、零拷贝处理相机帧等策略，避免了数据在 CPU 与 GPU 间传输的额外延迟。

第二步：内核深度优化，挖掘硬件极限性能

在消除冗余开销后，团队转向了更核心的 “内核优化”，针对模型中大量的 GEMM（通用矩阵乘法）操作和 scalar 算子进行精细调整：

GEMM 分块参数调优：默认 PyTorch 的 matmul 依赖 cuBLAS 调度 cutlass 内核，但部分内核未达到最优配置。团队通过 Triton 手动调优分块策略，针对不同维度的矩阵选择最佳 tile 大小，仅这一项就节省了 1.5 毫秒。值得注意的是，他们发现 LLM 的 transformer 层只需运行 17 次注意力和 FFN 层（而非 18 次）—— 因仅需将 KV 缓存传递给动作专家（AE），无需最后一层的特征输出，这又额外节省了 0.7 毫秒。
门控线性层融合：在 transformer 的 FFN 层中，门控上投影操作需将特征与两个不同权重矩阵相乘，再通过FC₁(x,w₁)·GELU(FC₂(x,w₂))合并结果。团队将这两个矩阵乘法并行执行，同时合并加载和存储操作 —— 加载一次输入 tile 后，可同时加载两个权重 tile 进行计算，最终仅需存储合并后的结果，减少了内存访问时间，让推理性能再提升 1.7 毫秒。
部分 split-k 策略：针对计算图中 512×1152×1152 尺寸的 GEMM 操作，团队发现用 64×64 tile 会产生 144 个块，无法均匀分配给 RTX 4090 的 128 个 SM。他们将该矩阵拆分为两部分：512×1152×1024（用 64×64 tile 均匀分配）和 512×1152×128（用 32×32 tile+split-2 策略分配），并将两部分写入单个内核。虽仅节省不到 0.1 毫秒，但为特定尺寸矩阵的优化提供了新思路。

第三步：建立性能下界，验证优化极限

为明确当前优化的潜力，团队基于 “roofline 模型” 计算了理论性能下界 —— 该模型通过 HBM 带宽和张量核心周期，确定计算的 “理论最小时间”。对于 BF16 精度的 GEMM 操作，团队考虑到网络中激活特征可存于 L2 缓存，仅计算网络参数（因尺寸过大无法缓存）的内存开销，结合 RTX 4090 的 1.01 TB/s 内存带宽和 91.4 TMAC/s（Boost 频率 2.79GHz 下）的计算能力，得出不同视图下的理论下界：单视图 12.8 毫秒、双视图 19.7 毫秒、三视图 26.7 毫秒。

同时，团队还测量了内核同步开销：π₀模型的计算图包含 1378 个 matmul 操作，SM 间需等待前一个内核完成才能启动下一个，产生同步延迟。他们通过对比 “连续启动 1378 个简单内核” 与 “单内核循环执行同等计算” 的时间差，发现用 CUDA 图链合内核时，同步开销约 1.72 毫秒；若采用 “软件屏障” 策略（匹配融合内核的网格大小），开销可降至 0.86 毫秒。

综合理论下界与同步开销，最终双视图下的性能下界为 20.6 毫秒 —— 当前 27.3 毫秒的实现已接近最优，剩余优化空间不超过 30%，充分证明了该方案的工程价值。

告别延迟！Dexmal&StepFun 联合研发，单 RTX 4090 让 VLA 模型实现 30FPS 实时机器人操控图4 — 图 1：模型运行时间分解图。从朴素的 PyTorch 实现开始，通过减少冗余计算、消除 CPU 开销，再到内核级优化，最终建立与当前实现接近的性能下界，清晰展示了各优化步骤对延迟的削减效果。

架构革新：全流式推理框架，解锁多频率控制闭环

若说性能优化是突破实时瓶颈的 “基石”，那么团队提出的 “全流式推理（Full Streaming Inference）框架”，则是对 VLA 模型应用模式的 “颠覆性重构”。

传统机器人控制系统采用分层架构，VLA 模型通常被局限在 “中频控制层”，高频的力控、力矩控制则由其他算法负责。但团队发现，VLA 模型本身包含不同层级的输入输出频率 —— 通过合理设计，可将其直接映射为完整的控制算法，实现从低频感知到高频动作的全链路覆盖。

全流式推理框架的核心，是实现了三个并行的反馈闭环，分别对应不同场景的控制频率需求：

（1）480Hz 力控闭环：AE 主导的高频响应

这一闭环是框架的 “快速反应核心”，由动作专家（AE）负责。为实现 480Hz 的控制频率，团队首先解决了 “高频输入信号” 的来源问题 —— 当前 3D/6D 力传感器的采样频率可达 2KHz 以上，延迟低至微秒级；即便无传感器，也可采用 1KHz 以上的电机电流或电阻式触觉信号。

团队对 AE 进行了关键改造：将传统流匹配算法改写为 “渐进式生成模式”。原本 AE 需完成 10 步去噪后才能输出完整动作序列，改造后每一步可生成部分动作，类似自回归解码（参考 Real-time Chunking 算法）。同时，将高频传感器信号直接注入 AE，当信号出现异常（如碰撞）时，AE 可立即生成应急动作（如紧急停止）。

在执行层面，新的传感器数据通过独立 CUDA 流异步更新 GPU 全局内存，不影响 AE 的持续运行；AE 则持续更新 “未提交” 的动作节点，已提交的动作异步发送给执行器 —— 最终实现 2 毫秒级的响应速度，接近实时力控的阈值。

（2）30Hz 视觉闭环：VLM 驱动的环境感知

这一闭环由视觉 - 语言模型（VLM）主导，负责处理 30FPS 的摄像头图像流。团队利用 VLM（计算密集型）与 AE（IO 密集型）的资源需求差异，通过多 CUDA 流并发执行，让两者基于旧 KV 缓存并行运行。例如，在处理 10 个 AE 步骤时，并发执行比顺序执行节省 1 毫秒；当 AE 数量增加到 16 个时，总运行时间仍控制在 33 毫秒以内 —— 这意味着每秒可处理 30 次 VLM 推理、480 次 AE 推理，充分利用 GPU 资源。

VLM 将图像处理为 KV 缓存后，传递给 AE 作为环境感知依据，确保 AE 的动作生成符合当前场景，实现 “视觉 - 动作” 的快速闭环。

（3）低于 1Hz 文本闭环：VLM 支撑的智能决策

这一闭环为系统增添了 “高阶智能”。VLM 不仅能处理图像，还可进行文本交互、任务规划和链式推理（CoT）。团队利用 “权重复用” 策略：加载一次 VLM 的矩阵权重后，先用于处理图像生成 KV 缓存，再用于文本推理 —— 因视觉 token 数量大，额外的文本计算 MACs 几乎不增加延迟。

最终该闭环实现 30 token/s 的文本生成速度，远超人类 3.3 token/s 的说话速度，可支持自然语言交互（如 “抓取红色杯子”）、任务规划等场景，为机器人提供 “思考能力”。

这三大闭环并行运行、相互协作：480Hz 闭环保证动作速度，30Hz 闭环提供环境感知，1Hz 闭环负责智能决策 —— 彻底改变了 VLA 模型在机器人系统中的角色定位。

告别延迟！Dexmal&StepFun 联合研发，单 RTX 4090 让 VLA 模型实现 30FPS 实时机器人操控图5 — 图 2：全流式推理框架拓扑图

告别延迟！Dexmal&StepFun 联合研发，单 RTX 4090 让 VLA 模型实现 30FPS 实时机器人操控图6 — 表 2：全流式推理框架示意图。AE 为动作专家，框架通过多 CUDA 流并发执行，实现 480Hz 的 AE 高频动作生成、30Hz 的 VLM 视觉处理和 30 token/s 的文本交互；轨迹缓冲区存储 480 个/秒的动作节点，三大闭环并行运行，充分利用硬件资源。

真实世界验证：100% 成功的下落钢笔抓取实验

为验证优化方案和框架的实际效果，团队设计了一个极具挑战性的真实世界实验 ——下落钢笔抓取任务，该任务的时间约束与人类反应极限相当，能直观检验系统的实时性能。

（1）实验 setup：模拟真实场景的严苛条件

实验装置由两个垂直对齐的定制抓取器组成：上方抓取器释放钢笔后，下方抓取器需在正确时机闭合以接住钢笔。钢笔下落距离约 30 厘米，而抓取器的有效闭合时间窗口仅为 60 毫秒（约两帧图像），一旦错过就会失败。

在感知端，团队选择 30FPS 的 720P USB 摄像头 —— 虽其延迟约为两帧（ISP 处理、USB 传输各一帧），但更贴近实际应用场景；相比之下，机器人研究中常用的 RealSense 摄像头延迟超过 100 毫秒，不符合实时需求。为增加任务难度，摄像头仅能观察下方抓取器和钢笔，无法直接看到上方抓取器的释放动作，需通过钢笔的运动状态间接判断释放时机。

数据采集阶段，团队收集了 600 个训练样本，涵盖不同的钢笔释放位置和摄像头姿态，确保模型泛化性；训练时使用 openpi 官方仓库（https://github.com/Physical-Intelligence/openpi），因样本充足，仅训练少数 epoch 就达到稳定性能。

（2）实验结果：100% 成功率，媲美人类反应

在 10 次连续实验中，优化后的 VLA 系统实现了 100% 的抓取成功率。这一结果不仅验证了低延迟推理的有效性，更证明了大型 VLA 模型在时间敏感型任务中的可靠性。

值得注意的是，30 厘米的下落距离是人类反应的常见下限 —— 这意味着该系统的反应速度已达到人类水平，而其背后是数十亿参数的复杂 VLA 模型，展现了 “高精度 + 高速度” 的双重优势。团队还对比了人类实验：让人类尝试抓取他人释放的钢笔，发现 30 厘米是多数人能成功反应的最短距离，进一步印证了系统的实时性能。

告别延迟！Dexmal&StepFun 联合研发，单 RTX 4090 让 VLA 模型实现 30FPS 实时机器人操控图7 — 图 3：下落钢笔抓取任务示意图。该任务具有严苛的时间约束，观察到钢笔下落后，需在极短时间内启动动作。通过 30FPS 的 VLA 模型推理，系统可处理摄像头流中的所有帧，端到端反应时间短于 200 毫秒，与人类平均反应水平相当。

未来方向：更快、更大、更精细的 VLA 实时控制

团队在论文中还提出了三个极具潜力的未来研究方向，为 VLA 模型的实时应用指明了进一步突破的路径：

（1）视觉延迟优化：向 60-120FPS 迈进

当前 30FPS 的视觉处理已能满足多数场景，但团队计划进一步提升摄像头帧率至 60-120FPS。一方面，可采用更低精度的计算（如 8 位量化）—— 当前实验使用 BF16 精度，若 8 位乘法可行，计算能力可大幅释放；另一方面，可实现 “自适应视图选择”—— 双臂机器人通常配备 3 个以上摄像头，通过判断 “活跃视图”（如钢笔所在视角），将多视图信息动态融合为更少 token，减少计算量。

团队指出，人类可区分 30FPS 与 60FPS 的视频差异，60FPS 可能是下一阶段的目标；而 120FPS（常用于慢动作视频）则能让系统反应 “超越人类”，适用于更高速的场景。

（2）模型规模扩展：向 7B 参数迈进

当前优化的 π₀模型参数约 3B（VLM 为 3B，AE 为 300M），团队计划将规模扩展至 7B。新一代 RTX 5090 GPU 的带宽已提升至 1.79TB/s，远超 BF16 计算能力的提升幅度 —— 这意味着 AE 可容纳更多参数（依赖带宽），而 VLM 的计算压力也可通过硬件升级缓解。

7B 参数的优势在于：其性能提升已在 LLM 领域得到验证，且与 3B 相比，参数翻倍的幅度仍在 “可优化” 范围内，有望在保持实时性的同时，进一步提升模型的泛化能力。

（3）更精细的反馈闭环：挖掘 AE 层的高频潜力

团队观察到，AE 内部包含数千层，每秒运行次数远高于 480Hz—— 若能让每一层感知最新信号，并输出中间结果，可能实现更高频率的控制。但当前面临两大挑战：一是如何设计层间信号交互机制，二是如何采集每秒数千次的演示数据 —— 这一方向需更多研究探索，但一旦突破，将把 VLA 模型的控制频率推向新高度。

此外，团队已开源相关代码，方便业界验证和扩展该方案，加速 VLA 实时技术的落地。

开源地址：https://github.com/Dexmal/realtime-vla

告别延迟！Dexmal&StepFun 联合研发，单 RTX 4090 让 VLA 模型实现 30FPS 实时机器人操控图8

结语：实时 VLA 的时代，已然开启

从传统 VLA 模型的百毫秒延迟，到优化后的 27.3 毫秒实时推理；从分层控制的局限，到全流式推理框架的多频率闭环；从行业对消费级 GPU 的性能质疑，到 100% 成功的真实世界验证 ——Dexmal 和 StepFun 团队的这项研究，不仅展现了卓越的工程实现能力，更重新定义了 VLA 模型在机器人领域的应用边界。

单消费级 GPU 的实时运行能力，大幅降低了 VLA 模型的应用门槛；全流式推理框架的提出，为机器人控制提供了 “速度与智能兼顾” 的新范式；而开源代码的释放，则将推动整个行业在实时 VLA 领域的快速迭代。

在人工智能与机器人技术深度融合的今天，实时性是衡量机器人 “智能水平” 的关键指标之一。Dexmal 和 StepFun 团队的成果，标志着 VLA 模型已具备与人类相当的实时反应能力 —— 未来，随着视觉帧率的提升、模型规模的扩展和反馈闭环的精细化，实时 VLA 模型将在工业、家庭、医疗等更多场景绽放光彩，让 “快速响应、智能交互” 的机器人真正走进日常生活。

参考资料

Running VLAs at Real-time Speed: https://arxiv.org/abs/2510.26742]

π₀ VLA 模型: https://arxiv.org/abs/2410.24164v3

-- 完 --