vivo AI Lab团队 投稿
量子位 | 公众号 QbitAI
想训练能自动操作手机的GUI(图形用户界面)智能体,总会遇到两难困境:
用在线强化学习,交互成本高,长任务训练容易崩盘; 只用离线数据训练,模型眼光短浅,多步操作总出错。
为破解这一难题,vivo AI Lab联合之江实验室、中国科学院大学杭州高等研究院,提出半在线强化学习框架SOLAR-RL。
它不依赖昂贵的在线环境交互,而是把全局轨迹信号直接“回填”进离线学习过程,在多个基准上以约10%的数据预算取得了与在线/SFT强基线相当甚至更优的表现,同时彻底规避了长程RL训练中常见的策略崩溃。

研究背景:在线RL太贵,离线RL太“短视”
在长程GUI任务上应用RL,两条主流路线各有硬伤:
在线RL:能捕捉环境的真实动态反馈,但在30步以上的长任务中交互成本高、奖励稀疏、方差极大,常常在学到可用策略之前就已“训练崩溃”。 离线RL:用静态数据训练、规避了交互风险,却因只盯着碎片化的“单步转移”而陷入“时序短视”,丢掉了长程规划所需的全局上下文,误差层层累积。
两条路线还共同卡在信用分配难题(Credit Assignment Problem,CAP)上:一条长轨迹结束时只有末端一个“成功/失败”的二元信号,无法判断到底是中间哪一步推理立了功、哪一步操作拖了后腿,梯度因此稀疏而嘈杂。我们的思路是:能否既保留离线训练的稳定性,又把通常只有在线交互才具备的轨迹级全局信号补回来?SOLAR-RL正是这一“半在线”范式的具体实现。

△三种RL范式对比。离线RL(左上)受限于碎片化的单步数据而“时序短视”;在线RL(右上)能捕捉动态但不稳定且交互成本高;SOLAR-RL(下)通过轨迹重构与回溯性信用分配,把全局轨迹洞察“回填”进离线数据。
方法:在静态数据中模拟在线反馈
我们将GUI导航建模为部分可观测马尔可夫决策过程(POMDP),SOLAR-RL由两个关键组件构成。
- 离线轨迹重构(Offline Trajectory Reconstruction)
对同一任务,我们在每一步并行采样N条候选rollout,再把相同索引的候选首尾相接、拼成N条“重构轨迹”,从而把有限的静态数据扩展成一批多样化的“伪在线”探索数据。其中关键的一点是:每条轨迹都按逐步有效性(per-step validity)逐帧核验,一旦某步动作被判无效,轨迹便在这个“首次失败点”被截断、丢弃其后步骤。有效性判定采用基于真值标签的严格协议——坐标类动作用高斯核度量、文本输入用F1分数、应用启动用相似度阈值、系统类动作用精确匹配,既剪掉低质量偏差,又保留探索多样性。

△离线轨迹重构。每一步并行采样N条rollout,将相同索引的候选首尾相接形成N条重构轨迹,产出用于训练的“伪在线”数据。
- 轨迹感知奖励塑形(Trajectory-Aware Reward Shaping)
这是SOLAR-RL的核心贡献,把“整条轨迹的执行质量”回溯性地拆解为稠密的步级奖励,包含三层设计:
失败点检测+前缀信用:每条重构轨迹都有一个首次失败步t*,只有t*之前的“有效前缀”才获得正向奖励,失败步及其之后的无效步则被惩罚,给出明确纠错信号。 原子动作打分:用细粒度评分函数将点击、滑动、输入等不同动作映射为0~1的连续质量分,有效动作保留正分,无效动作转为负反馈。 目标对齐的奖励塑形:先依据轨迹的全局质量(综合任务完成度、当前轨迹长度与参考专家长度之比、逐步执行质量)动态确定一个“目标总回报”;对长序列中的错误施加“长度感知”动态惩罚以抑制“奖励刷分”;最后把回报缺口均匀重分配到有效前缀的正向步上,使总回报与轨迹级质量严格对齐。
如此一来,SOLAR-RL在零环境交互的前提下,产出稠密、稳定、且与全局目标对齐的训练信号,相当于在静态数据上“模拟”出了在线反馈。

△轨迹感知奖励塑形机制的三个阶段。(1)原始经验:失败轨迹只有末端稀疏反馈,看不出“从哪一步开始走错”;(2)失败点检测:按逐步有效性定位首次崩溃步;(3)前缀信用分配:只对崩溃前的有效步给正奖励,并惩罚全部无效步,从而产出稠密、稳定的长程训练信号。
实验结果
我们以Qwen2.5-VL-7B-Instruct为基座、基于verl框架,仅用15k条高质量静态轨迹(约94k步)训练,每步采样N=8、温度1.0,在32张NVIDIA L40S上训练650步、约60小时,并在三大基准上进行了评测。

△在Android Control(AC,Low/High)、GUI-Odyssey、AndroidWorld上的统一对比。TM=类型匹配,SR=步成功率/任务成功率;“—”表示原文未报告。
- 细粒度操控(Android Control)
在离线类方法中,SOLAR-RL在Low划分上取得93.24%TM/88.57%SR;在更考验多步推理的High划分上,以69.27%SR拿下离线类方法的最高分,超过UI-Venus(68.61%)与AgentCPM(67.93%),表明轨迹感知信用分配能有效防止复杂任务中的推理退化。
- 长程跨应用导航(GUI-Odyssey)
在以长链路、跨应用著称的GUI-Odyssey上,SOLAR-RL取得87.60%TM。尽管AgentCPM此项原始指标略高,但它使用了超过55k条轨迹——是本文(15k)的三倍多,反衬出我们方法的样本效率。
- 真实环境执行(AndroidWorld)
在最具挑战的动态基准AndroidWorld上,SOLAR-RL取得33.7%SR,位列离线类第二;更值得注意的是,它在完全不做在线交互的情况下超过了使用145k轨迹的在线方法UI-TARS-7B-SFT(33.3%),而训练数据量仅约为对手的10%。这说明:堆原始数据规模并非提升性能的唯一路径,把学习信号“精炼”好同样关键。
分析:训练更稳,且学会“连续纠错”
- 告别长程训练中的策略崩溃
与强基线GRPO的对比很能说明问题:GRPO早期会涨,但在约600步后出现典型的“策略崩溃”——奖励断崖式下滑、智能体陷入无效循环;而SOLAR-RL的平均动作奖励单调上升,最终稳定收敛在约0.75的更高水平。在PressBack(回退纠错)这类关键动作上,GRPO剧烈震荡、迟迟学不会“何时该后退”,SOLAR-RL则快速收敛到0.8以上的高精度,有效避免了导航死循环;在“超长(≥14步)”任务上,这一稳定性优势进一步放大。

△训练过程中的平均动作奖励。GRPO(蓝)在后期发生策略崩溃、奖励骤降,SOLAR-RL(橙)则单调上升并稳定收敛于约0.75。
- 一个真实案例:长程任务拼的是连续纠错
论文给出的一个训练案例颇具代表性:在Simple SMS Messenger里“把刚发给Juan Alves的消息重新发一遍”。
轨迹一:智能体先在会话列表里误用长按(错误),随后纠正、进入正确的聊天页(第一次纠错成功);但当它发现“长按已发送消息”也无效时,却没能切换到“重新输入并发送”的正确策略,于是被困在一个看似合理、实则走不通的行为里——任务失败。
轨迹二:起步几乎相同,但它完成了连续两次纠错——先从会话列表切到正确的聊天页,再果断放弃无效的长按、改为重新输入并发送,最终成功完成任务。
这揭示了长程GUI任务的本质:成功不在于“一次都不犯错”,而在于“能否一错再纠、连续从次优状态里爬出来”。这正呼应了SOLAR-RL的设计动机——失败点信用分配帮助定位轨迹从哪一步开始走偏,轨迹感知奖励塑形则抑制智能体在失败后继续重复无效动作链,鼓励它放弃无效局部行为、重新回到有效决策路径上。
局限与未来方向
我们也坦诚指出了方法的边界与下一步:
其一,半在线机制受限于离线数据的覆盖面,无法见到分布之外的全新状态(如未见过的弹窗、延迟引起的界面变化),它“模拟”在线反馈但并不替代真实环境交互;
其二,当前有效性校验依赖真值标签,未来可替换为学习型验证器或奖励/评判模型,从而拓展到弱标注、无标注的GUI数据;
其三,目前评测主要集中在移动(Android)环境,将轨迹感知奖励塑形推广到动作更丰富的桌面操作系统与网页浏览器,还需要平台特定的有效性标准与基准。这些都是我们后续探索的方向。
论文标题:SOLAR-RL: Semi-Online Long-horizon Assignment Reinforcement Learning
论文地址:https://arxiv.org/abs/2604.22558
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
【学术投稿】请在工作日发送邮件至:ai@qbitai.com,标题注明【投稿】,并告诉我们:你是谁,从哪来,投稿内容附上项目/主页链接,以及联系方式。
🌟 点亮星标 🌟