引言:VLA 模型的 “速度困局” 与行业痛点
在机器人操控领域,视觉-语言-动作(VLA)模型凭借百亿级参数的强大泛化能力,成为推动通用机器人技术发展的核心力量。从工业场景的精密装配到家庭场景的服务交互,VLA 模型本应让机器人更灵活地应对复杂环境,但一个关键问题长期阻碍着其落地 ——延迟。
许多真实世界的机器人任务对时间有着严苛要求,例如抓取下落物体、实时避障等,往往需要在数百毫秒内完成 “感知-决策-动作” 的闭环。然而,传统 VLA 模型的一次前向传播通常需要上百毫秒,根本无法满足实时响应需求。更关键的是,33 毫秒(约 1/30 秒)是实现实时操作的 “生死线”:只有达到这个速度,才能完整处理 30FPS 的 RGB 视频流;若超过 34 毫秒,就不得不频繁丢弃帧,一旦关键事件出现在丢弃帧中,延迟会骤增,直接导致任务失败。
长期以来,行业普遍认为大型 VLA 模型无法在消费级硬件上实现实时运行,这一认知成为制约其大规模应用的核心瓶颈。
而近日,来自 Dexmal 和 StepFun(阶跃星辰)的研究团队发表的题为 “Running VLAs at Real-time Speed[1]”的成果,彻底打破了这一局限。他们通过一系列创新优化策略,在单块消费级 RTX 4090 GPU 上,实现了 π₀级多视图 VLA 模型 30Hz 的推理速度,最高轨迹频率可达 480Hz,还在下落钢笔抓取任务中实现了 100% 的成功率,让 VLA 模型的实时应用成为现实。

核心突破:从百毫秒到 27.3 毫秒的性能飞跃
(1)实测数据:碾压传统方案的速度优势
研究团队以经典的 π₀ VLA 模型[2]为优化对象,在单块 RTX 4090 GPU 上进行了严格的性能测试,测试条件为 “空提示文本 + 63 段长度”,结果令人惊叹。优化后的模型在不同视图数量下均实现了突破性提升:单视图推理仅需 20.0 毫秒,双视图 27.3 毫秒,三视图 36.8 毫秒。
对比传统方案,这一成绩堪称碾压:朴素 PyTorch 实现的单视图推理需要 105.0 毫秒,即便是 openpi 项目的 JAX 优化版本,双视图推理也需要 53.7 毫秒。优化后的方案不仅将速度提升近一倍,更关键的是,它满足了 30FPS 视频流的全帧处理需求,端到端反应时间可控制在 200 毫秒以内,与人类在同类任务中的平均反应速度相当。
(2)三层优化策略:从 “消除开销” 到 “榨干硬件”
如此显著的性能提升,并非依赖单一技术改进,而是一套覆盖 “开销消除-内核优化-理论验证” 的完整方案。
第一步:消除冗余开销,拿下 “低垂的果实”
优化的起点是朴素的 PyTorch 实现,其运行时间超过 100 毫秒,远未达到实时目标。团队首先瞄准了两类 “低开销高回报” 的优化点:
一是消除 CPU 开销。当前神经网络推理多由 Python 代码驱动 CUDA 内核,但当内核数量庞大时,Python 的执行开销会变得非常显著 —— 在 π₀ 模型中,单次推理需启动超过 1000 个内核,CPU 开销问题尤为突出。团队采用 CUDA 图机制,通过录制模型推理时的内核流,后续直接由 GPU 和驱动回放,彻底摆脱 Python 执行的额外消耗。这一操作让推理速度提升近两倍,大幅削减了朴素实现中的主要开销。
二是简化计算图。团队深入分析网络结构,发现部分计算可通过等价改写实现提速。例如,将 RMS 归一化层的仿射参数融合到后续线性层中,利用线性操作的结合律减少计算步骤;将动作时间编码中的两个连续线性层折叠为一个(因无非线性层间隔),同时对时间分支的结果进行预计算并融合到偏置向量中;还将 Q、K、V 的投影矩阵合并为一个大矩阵,通过张量切片获取各自结果,减少内核启动次数并提升并行度。这些改造共降低了 7-8 毫秒的延迟,进一步拉近了与实时目标的距离。
此外,团队还优化了图像缩放等外围环节:利用相机 ISP 支持的多分辨率输出,选择接近 224×224(模型输入尺寸)的 240×320 分辨率,再配合手工优化的缩放代码,将图像缩放时间控制在 60 微秒以内(桌面 x86 CPU 环境),几乎可忽略不计;同时采用固定 CPU 缓冲区、零拷贝处理相机帧等策略,避免了数据在 CPU 与 GPU 间传输的额外延迟。
第二步:内核深度优化,挖掘硬件极限性能
在消除冗余开销后,团队转向了更核心的 “内核优化”,针对模型中大量的 GEMM(通用矩阵乘法)操作和 scalar 算子进行精细调整:
-
GEMM 分块参数调优:默认 PyTorch 的 matmul 依赖 cuBLAS 调度 cutlass 内核,但部分内核未达到最优配置。团队通过 Triton 手动调优分块策略,针对不同维度的矩阵选择最佳 tile 大小,仅这一项就节省了 1.5 毫秒。值得注意的是,他们发现 LLM 的 transformer 层只需运行 17 次注意力和 FFN 层(而非 18 次)—— 因仅需将 KV 缓存传递给动作专家(AE),无需最后一层的特征输出,这又额外节省了 0.7 毫秒。 -
门控线性层融合:在 transformer 的 FFN 层中,门控上投影操作需将特征与两个不同权重矩阵相乘,再通过 FC₁(x,w₁)·GELU(FC₂(x,w₂))合并结果。团队将这两个矩阵乘法并行执行,同时合并加载和存储操作 —— 加载一次输入 tile 后,可同时加载两个权重 tile 进行计算,最终仅需存储合并后的结果,减少了内存访问时间,让推理性能再提升 1.7 毫秒。 -
部分 split-k 策略:针对计算图中 512×1152×1152 尺寸的 GEMM 操作,团队发现用 64×64 tile 会产生 144 个块,无法均匀分配给 RTX 4090 的 128 个 SM。他们将该矩阵拆分为两部分:512×1152×1024(用 64×64 tile 均匀分配)和 512×1152×128(用 32×32 tile+split-2 策略分配),并将两部分写入单个内核。虽仅节省不到 0.1 毫秒,但为特定尺寸矩阵的优化提供了新思路。
第三步:建立性能下界,验证优化极限
为明确当前优化的潜力,团队基于 “roofline 模型” 计算了理论性能下界 —— 该模型通过 HBM 带宽和张量核心周期,确定计算的 “理论最小时间”。对于 BF16 精度的 GEMM 操作,团队考虑到网络中激活特征可存于 L2 缓存,仅计算网络参数(因尺寸过大无法缓存)的内存开销,结合 RTX 4090 的 1.01 TB/s 内存带宽和 91.4 TMAC/s(Boost 频率 2.79GHz 下)的计算能力,得出不同视图下的理论下界:单视图 12.8 毫秒、双视图 19.7 毫秒、三视图 26.7 毫秒。
同时,团队还测量了内核同步开销:π₀模型的计算图包含 1378 个 matmul 操作,SM 间需等待前一个内核完成才能启动下一个,产生同步延迟。他们通过对比 “连续启动 1378 个简单内核” 与 “单内核循环执行同等计算” 的时间差,发现用 CUDA 图链合内核时,同步开销约 1.72 毫秒;若采用 “软件屏障” 策略(匹配融合内核的网格大小),开销可降至 0.86 毫秒。
综合理论下界与同步开销,最终双视图下的性能下界为 20.6 毫秒 —— 当前 27.3 毫秒的实现已接近最优,剩余优化空间不超过 30%,充分证明了该方案的工程价值。
架构革新:全流式推理框架,解锁多频率控制闭环
若说性能优化是突破实时瓶颈的 “基石”,那么团队提出的 “全流式推理(Full Streaming Inference)框架”,则是对 VLA 模型应用模式的 “颠覆性重构”。
传统机器人控制系统采用分层架构,VLA 模型通常被局限在 “中频控制层”,高频的力控、力矩控制则由其他算法负责。但团队发现,VLA 模型本身包含不同层级的输入输出频率 —— 通过合理设计,可将其直接映射为完整的控制算法,实现从低频感知到高频动作的全链路覆盖。
全流式推理框架的核心,是实现了三个并行的反馈闭环,分别对应不同场景的控制频率需求:
(1)480Hz 力控闭环:AE 主导的高频响应
这一闭环是框架的 “快速反应核心”,由动作专家(AE)负责。为实现 480Hz 的控制频率,团队首先解决了 “高频输入信号” 的来源问题 —— 当前 3D/6D 力传感器的采样频率可达 2KHz 以上,延迟低至微秒级;即便无传感器,也可采用 1KHz 以上的电机电流或电阻式触觉信号。
团队对 AE 进行了关键改造:将传统流匹配算法改写为 “渐进式生成模式”。原本 AE 需完成 10 步去噪后才能输出完整动作序列,改造后每一步可生成部分动作,类似自回归解码(参考 Real-time Chunking 算法)。同时,将高频传感器信号直接注入 AE,当信号出现异常(如碰撞)时,AE 可立即生成应急动作(如紧急停止)。
在执行层面,新的传感器数据通过独立 CUDA 流异步更新 GPU 全局内存,不影响 AE 的持续运行;AE 则持续更新 “未提交” 的动作节点,已提交的动作异步发送给执行器 —— 最终实现 2 毫秒级的响应速度,接近实时力控的阈值。
(2)30Hz 视觉闭环:VLM 驱动的环境感知
这一闭环由视觉 - 语言模型(VLM)主导,负责处理 30FPS 的摄像头图像流。团队利用 VLM(计算密集型)与 AE(IO 密集型)的资源需求差异,通过多 CUDA 流并发执行,让两者基于旧 KV 缓存并行运行。例如,在处理 10 个 AE 步骤时,并发执行比顺序执行节省 1 毫秒;当 AE 数量增加到 16 个时,总运行时间仍控制在 33 毫秒以内 —— 这意味着每秒可处理 30 次 VLM 推理、480 次 AE 推理,充分利用 GPU 资源。
VLM 将图像处理为 KV 缓存后,传递给 AE 作为环境感知依据,确保 AE 的动作生成符合当前场景,实现 “视觉 - 动作” 的快速闭环。
(3)低于 1Hz 文本闭环:VLM 支撑的智能决策
这一闭环为系统增添了 “高阶智能”。VLM 不仅能处理图像,还可进行文本交互、任务规划和链式推理(CoT)。团队利用 “权重复用” 策略:加载一次 VLM 的矩阵权重后,先用于处理图像生成 KV 缓存,再用于文本推理 —— 因视觉 token 数量大,额外的文本计算 MACs 几乎不增加延迟。
最终该闭环实现 30 token/s 的文本生成速度,远超人类 3.3 token/s 的说话速度,可支持自然语言交互(如 “抓取红色杯子”)、任务规划等场景,为机器人提供 “思考能力”。
这三大闭环并行运行、相互协作:480Hz 闭环保证动作速度,30Hz 闭环提供环境感知,1Hz 闭环负责智能决策 —— 彻底改变了 VLA 模型在机器人系统中的角色定位。
真实世界验证:100% 成功的下落钢笔抓取实验
为验证优化方案和框架的实际效果,团队设计了一个极具挑战性的真实世界实验 ——下落钢笔抓取任务,该任务的时间约束与人类反应极限相当,能直观检验系统的实时性能。
(1)实验 setup:模拟真实场景的严苛条件
实验装置由两个垂直对齐的定制抓取器组成:上方抓取器释放钢笔后,下方抓取器需在正确时机闭合以接住钢笔。钢笔下落距离约 30 厘米,而抓取器的有效闭合时间窗口仅为 60 毫秒(约两帧图像),一旦错过就会失败。
在感知端,团队选择 30FPS 的 720P USB 摄像头 —— 虽其延迟约为两帧(ISP 处理、USB 传输各一帧),但更贴近实际应用场景;相比之下,机器人研究中常用的 RealSense 摄像头延迟超过 100 毫秒,不符合实时需求。为增加任务难度,摄像头仅能观察下方抓取器和钢笔,无法直接看到上方抓取器的释放动作,需通过钢笔的运动状态间接判断释放时机。
数据采集阶段,团队收集了 600 个训练样本,涵盖不同的钢笔释放位置和摄像头姿态,确保模型泛化性;训练时使用 openpi 官方仓库(https://github.com/Physical-Intelligence/openpi),因样本充足,仅训练少数 epoch 就达到稳定性能。
(2)实验结果:100% 成功率,媲美人类反应
在 10 次连续实验中,优化后的 VLA 系统实现了 100% 的抓取成功率。这一结果不仅验证了低延迟推理的有效性,更证明了大型 VLA 模型在时间敏感型任务中的可靠性。
值得注意的是,30 厘米的下落距离是人类反应的常见下限 —— 这意味着该系统的反应速度已达到人类水平,而其背后是数十亿参数的复杂 VLA 模型,展现了 “高精度 + 高速度” 的双重优势。团队还对比了人类实验:让人类尝试抓取他人释放的钢笔,发现 30 厘米是多数人能成功反应的最短距离,进一步印证了系统的实时性能。
未来方向:更快、更大、更精细的 VLA 实时控制
团队在论文中还提出了三个极具潜力的未来研究方向,为 VLA 模型的实时应用指明了进一步突破的路径:
(1)视觉延迟优化:向 60-120FPS 迈进
当前 30FPS 的视觉处理已能满足多数场景,但团队计划进一步提升摄像头帧率至 60-120FPS。一方面,可采用更低精度的计算(如 8 位量化)—— 当前实验使用 BF16 精度,若 8 位乘法可行,计算能力可大幅释放;另一方面,可实现 “自适应视图选择”—— 双臂机器人通常配备 3 个以上摄像头,通过判断 “活跃视图”(如钢笔所在视角),将多视图信息动态融合为更少 token,减少计算量。
团队指出,人类可区分 30FPS 与 60FPS 的视频差异,60FPS 可能是下一阶段的目标;而 120FPS(常用于慢动作视频)则能让系统反应 “超越人类”,适用于更高速的场景。
(2)模型规模扩展:向 7B 参数迈进
当前优化的 π₀模型参数约 3B(VLM 为 3B,AE 为 300M),团队计划将规模扩展至 7B。新一代 RTX 5090 GPU 的带宽已提升至 1.79TB/s,远超 BF16 计算能力的提升幅度 —— 这意味着 AE 可容纳更多参数(依赖带宽),而 VLM 的计算压力也可通过硬件升级缓解。
7B 参数的优势在于:其性能提升已在 LLM 领域得到验证,且与 3B 相比,参数翻倍的幅度仍在 “可优化” 范围内,有望在保持实时性的同时,进一步提升模型的泛化能力。
(3)更精细的反馈闭环:挖掘 AE 层的高频潜力
团队观察到,AE 内部包含数千层,每秒运行次数远高于 480Hz—— 若能让每一层感知最新信号,并输出中间结果,可能实现更高频率的控制。但当前面临两大挑战:一是如何设计层间信号交互机制,二是如何采集每秒数千次的演示数据 —— 这一方向需更多研究探索,但一旦突破,将把 VLA 模型的控制频率推向新高度。
此外,团队已开源相关代码,方便业界验证和扩展该方案,加速 VLA 实时技术的落地。
开源地址:https://github.com/Dexmal/realtime-vla

结语:实时 VLA 的时代,已然开启
从传统 VLA 模型的百毫秒延迟,到优化后的 27.3 毫秒实时推理;从分层控制的局限,到全流式推理框架的多频率闭环;从行业对消费级 GPU 的性能质疑,到 100% 成功的真实世界验证 ——Dexmal 和 StepFun 团队的这项研究,不仅展现了卓越的工程实现能力,更重新定义了 VLA 模型在机器人领域的应用边界。
单消费级 GPU 的实时运行能力,大幅降低了 VLA 模型的应用门槛;全流式推理框架的提出,为机器人控制提供了 “速度与智能兼顾” 的新范式;而开源代码的释放,则将推动整个行业在实时 VLA 领域的快速迭代。
在人工智能与机器人技术深度融合的今天,实时性是衡量机器人 “智能水平” 的关键指标之一。Dexmal 和 StepFun 团队的成果,标志着 VLA 模型已具备与人类相当的实时反应能力 —— 未来,随着视觉帧率的提升、模型规模的扩展和反馈闭环的精细化,实时 VLA 模型将在工业、家庭、医疗等更多场景绽放光彩,让 “快速响应、智能交互” 的机器人真正走进日常生活。
π₀ VLA 模型: https://arxiv.org/abs/2410.24164v3
-- 完 --