长链路手机AI训练总崩盘？vivo全新半在线RL，仅15k轨迹稳定收敛

vivo AI Lab团队投稿
量子位 | 公众号 QbitAI

想训练能自动操作手机的GUI（图形用户界面）智能体，总会遇到两难困境：

用在线强化学习，交互成本高，长任务训练容易崩盘；
只用离线数据训练，模型眼光短浅，多步操作总出错。

为破解这一难题，vivo AI Lab联合之江实验室、中国科学院大学杭州高等研究院，提出半在线强化学习框架SOLAR-RL。

它不依赖昂贵的在线环境交互，而是把全局轨迹信号直接“回填”进离线学习过程，在多个基准上以约10%的数据预算取得了与在线/SFT强基线相当甚至更优的表现，同时彻底规避了长程RL训练中常见的策略崩溃。

研究背景：在线RL太贵，离线RL太“短视”

在长程GUI任务上应用RL，两条主流路线各有硬伤：

在线RL：能捕捉环境的真实动态反馈，但在30步以上的长任务中交互成本高、奖励稀疏、方差极大，常常在学到可用策略之前就已“训练崩溃”。
离线RL：用静态数据训练、规避了交互风险，却因只盯着碎片化的“单步转移”而陷入“时序短视”，丢掉了长程规划所需的全局上下文，误差层层累积。

两条路线还共同卡在信用分配难题（Credit Assignment Problem，CAP）上：一条长轨迹结束时只有末端一个“成功/失败”的二元信号，无法判断到底是中间哪一步推理立了功、哪一步操作拖了后腿，梯度因此稀疏而嘈杂。我们的思路是：能否既保留离线训练的稳定性，又把通常只有在线交互才具备的轨迹级全局信号补回来？SOLAR-RL正是这一“半在线”范式的具体实现。

△三种RL范式对比。离线RL（左上）受限于碎片化的单步数据而“时序短视”；在线RL（右上）能捕捉动态但不稳定且交互成本高；SOLAR-RL（下）通过轨迹重构与回溯性信用分配，把全局轨迹洞察“回填”进离线数据。

方法：在静态数据中模拟在线反馈

我们将GUI导航建模为部分可观测马尔可夫决策过程（POMDP），SOLAR-RL由两个关键组件构成。

离线轨迹重构（Offline Trajectory Reconstruction）

对同一任务，我们在每一步并行采样N条候选rollout，再把相同索引的候选首尾相接、拼成N条“重构轨迹”，从而把有限的静态数据扩展成一批多样化的“伪在线”探索数据。其中关键的一点是：每条轨迹都按逐步有效性（per-step validity）逐帧核验，一旦某步动作被判无效，轨迹便在这个“首次失败点”被截断、丢弃其后步骤。有效性判定采用基于真值标签的严格协议——坐标类动作用高斯核度量、文本输入用F1分数、应用启动用相似度阈值、系统类动作用精确匹配，既剪掉低质量偏差，又保留探索多样性。

△离线轨迹重构。每一步并行采样N条rollout，将相同索引的候选首尾相接形成N条重构轨迹，产出用于训练的“伪在线”数据。

轨迹感知奖励塑形（Trajectory-Aware Reward Shaping）

这是SOLAR-RL的核心贡献，把“整条轨迹的执行质量”回溯性地拆解为稠密的步级奖励，包含三层设计：

失败点检测+前缀信用：每条重构轨迹都有一个首次失败步t*，只有t*之前的“有效前缀”才获得正向奖励，失败步及其之后的无效步则被惩罚，给出明确纠错信号。
原子动作打分：用细粒度评分函数将点击、滑动、输入等不同动作映射为0~1的连续质量分，有效动作保留正分，无效动作转为负反馈。
目标对齐的奖励塑形：先依据轨迹的全局质量（综合任务完成度、当前轨迹长度与参考专家长度之比、逐步执行质量）动态确定一个“目标总回报”；对长序列中的错误施加“长度感知”动态惩罚以抑制“奖励刷分”；最后把回报缺口均匀重分配到有效前缀的正向步上，使总回报与轨迹级质量严格对齐。

如此一来，SOLAR-RL在零环境交互的前提下，产出稠密、稳定、且与全局目标对齐的训练信号，相当于在静态数据上“模拟”出了在线反馈。

△轨迹感知奖励塑形机制的三个阶段。（1）原始经验：失败轨迹只有末端稀疏反馈，看不出“从哪一步开始走错”；（2）失败点检测：按逐步有效性定位首次崩溃步；（3）前缀信用分配：只对崩溃前的有效步给正奖励，并惩罚全部无效步，从而产出稠密、稳定的长程训练信号。

实验结果

我们以Qwen2.5-VL-7B-Instruct为基座、基于verl框架，仅用15k条高质量静态轨迹（约94k步）训练，每步采样N=8、温度1.0，在32张NVIDIA L40S上训练650步、约60小时，并在三大基准上进行了评测。

△在Android Control（AC，Low/High）、GUI-Odyssey、AndroidWorld上的统一对比。TM=类型匹配，SR=步成功率/任务成功率；“—”表示原文未报告。

细粒度操控（Android Control）

在离线类方法中，SOLAR-RL在Low划分上取得93.24%TM/88.57%SR；在更考验多步推理的High划分上，以69.27%SR拿下离线类方法的最高分，超过UI-Venus（68.61%）与AgentCPM（67.93%），表明轨迹感知信用分配能有效防止复杂任务中的推理退化。

长程跨应用导航（GUI-Odyssey）

在以长链路、跨应用著称的GUI-Odyssey上，SOLAR-RL取得87.60%TM。尽管AgentCPM此项原始指标略高，但它使用了超过55k条轨迹——是本文（15k）的三倍多，反衬出我们方法的样本效率。

真实环境执行（AndroidWorld）

在最具挑战的动态基准AndroidWorld上，SOLAR-RL取得33.7%SR，位列离线类第二；更值得注意的是，它在完全不做在线交互的情况下超过了使用145k轨迹的在线方法UI-TARS-7B-SFT（33.3%），而训练数据量仅约为对手的10%。这说明：堆原始数据规模并非提升性能的唯一路径，把学习信号“精炼”好同样关键。

分析：训练更稳，且学会“连续纠错”

告别长程训练中的策略崩溃

与强基线GRPO的对比很能说明问题：GRPO早期会涨，但在约600步后出现典型的“策略崩溃”——奖励断崖式下滑、智能体陷入无效循环；而SOLAR-RL的平均动作奖励单调上升，最终稳定收敛在约0.75的更高水平。在PressBack（回退纠错）这类关键动作上，GRPO剧烈震荡、迟迟学不会“何时该后退”，SOLAR-RL则快速收敛到0.8以上的高精度，有效避免了导航死循环；在“超长（≥14步）”任务上，这一稳定性优势进一步放大。

△训练过程中的平均动作奖励。GRPO（蓝）在后期发生策略崩溃、奖励骤降，SOLAR-RL（橙）则单调上升并稳定收敛于约0.75。

一个真实案例：长程任务拼的是连续纠错

论文给出的一个训练案例颇具代表性：在Simple SMS Messenger里“把刚发给Juan Alves的消息重新发一遍”。

轨迹一：智能体先在会话列表里误用长按（错误），随后纠正、进入正确的聊天页（第一次纠错成功）；但当它发现“长按已发送消息”也无效时，却没能切换到“重新输入并发送”的正确策略，于是被困在一个看似合理、实则走不通的行为里——任务失败。
轨迹二：起步几乎相同，但它完成了连续两次纠错——先从会话列表切到正确的聊天页，再果断放弃无效的长按、改为重新输入并发送，最终成功完成任务。

这揭示了长程GUI任务的本质：成功不在于“一次都不犯错”，而在于“能否一错再纠、连续从次优状态里爬出来”。这正呼应了SOLAR-RL的设计动机——失败点信用分配帮助定位轨迹从哪一步开始走偏，轨迹感知奖励塑形则抑制智能体在失败后继续重复无效动作链，鼓励它放弃无效局部行为、重新回到有效决策路径上。