长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛

量子位 2026-06-27 13:51
vivo AI Lab团队 投稿 
量子位 | 公众号 QbitAI

想训练能自动操作手机的GUI(图形用户界面)智能体,总会遇到两难困境:

为破解这一难题,vivo AI Lab联合之江实验室、中国科学院大学杭州高等研究院,提出半在线强化学习框架SOLAR-RL

它不依赖昂贵的在线环境交互,而是把全局轨迹信号直接“回填”进离线学习过程,在多个基准上以约10%的数据预算取得了与在线/SFT强基线相当甚至更优的表现,同时彻底规避了长程RL训练中常见的策略崩溃。

长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛图1

研究背景:在线RL太贵,离线RL太“短视”

在长程GUI任务上应用RL,两条主流路线各有硬伤:

两条路线还共同卡在信用分配难题(Credit Assignment Problem,CAP)上:一条长轨迹结束时只有末端一个“成功/失败”的二元信号,无法判断到底是中间哪一步推理立了功、哪一步操作拖了后腿,梯度因此稀疏而嘈杂。我们的思路是:能否既保留离线训练的稳定性,又把通常只有在线交互才具备的轨迹级全局信号补回来?SOLAR-RL正是这一“半在线”范式的具体实现。

长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛图2
三种RL范式对比。离线RL(左上)受限于碎片化的单步数据而“时序短视”;在线RL(右上)能捕捉动态但不稳定且交互成本高;SOLAR-RL(下)通过轨迹重构与回溯性信用分配,把全局轨迹洞察“回填”进离线数据。

方法:在静态数据中模拟在线反馈

我们将GUI导航建模为部分可观测马尔可夫决策过程(POMDP),SOLAR-RL由两个关键组件构成。

对同一任务,我们在每一步并行采样N条候选rollout,再把相同索引的候选首尾相接、拼成N条“重构轨迹”,从而把有限的静态数据扩展成一批多样化的“伪在线”探索数据。其中关键的一点是:每条轨迹都按逐步有效性(per-step validity)逐帧核验,一旦某步动作被判无效,轨迹便在这个“首次失败点”被截断、丢弃其后步骤。有效性判定采用基于真值标签的严格协议——坐标类动作用高斯核度量、文本输入用F1分数、应用启动用相似度阈值、系统类动作用精确匹配,既剪掉低质量偏差,又保留探索多样性。

长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛图3
离线轨迹重构。每一步并行采样N条rollout,将相同索引的候选首尾相接形成N条重构轨迹,产出用于训练的“伪在线”数据。

这是SOLAR-RL的核心贡献,把“整条轨迹的执行质量”回溯性地拆解为稠密的步级奖励,包含三层设计:

如此一来,SOLAR-RL在零环境交互的前提下,产出稠密、稳定、且与全局目标对齐的训练信号,相当于在静态数据上“模拟”出了在线反馈。

长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛图4
轨迹感知奖励塑形机制的三个阶段。(1)原始经验:失败轨迹只有末端稀疏反馈,看不出“从哪一步开始走错”;(2)失败点检测:按逐步有效性定位首次崩溃步;(3)前缀信用分配:只对崩溃前的有效步给正奖励,并惩罚全部无效步,从而产出稠密、稳定的长程训练信号。

实验结果

我们以Qwen2.5-VL-7B-Instruct为基座、基于verl框架,仅用15k条高质量静态轨迹(约94k步)训练,每步采样N=8、温度1.0,在32张NVIDIA L40S上训练650步、约60小时,并在三大基准上进行了评测。

长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛图5
在Android Control(AC,Low/High)、GUI-Odyssey、AndroidWorld上的统一对比。TM=类型匹配,SR=步成功率/任务成功率;“—”表示原文未报告。

在离线类方法中,SOLAR-RL在Low划分上取得93.24%TM/88.57%SR;在更考验多步推理的High划分上,以69.27%SR拿下离线类方法的最高分,超过UI-Venus(68.61%)与AgentCPM(67.93%),表明轨迹感知信用分配能有效防止复杂任务中的推理退化。

在以长链路、跨应用著称的GUI-Odyssey上,SOLAR-RL取得87.60%TM。尽管AgentCPM此项原始指标略高,但它使用了超过55k条轨迹——是本文(15k)的三倍多,反衬出我们方法的样本效率。

在最具挑战的动态基准AndroidWorld上,SOLAR-RL取得33.7%SR,位列离线类第二;更值得注意的是,它在完全不做在线交互的情况下超过了使用145k轨迹的在线方法UI-TARS-7B-SFT(33.3%),而训练数据量仅约为对手的10%。这说明:堆原始数据规模并非提升性能的唯一路径,把学习信号“精炼”好同样关键。

分析:训练更稳,且学会“连续纠错”

与强基线GRPO的对比很能说明问题:GRPO早期会涨,但在约600步后出现典型的“策略崩溃”——奖励断崖式下滑、智能体陷入无效循环;而SOLAR-RL的平均动作奖励单调上升,最终稳定收敛在约0.75的更高水平。在PressBack(回退纠错)这类关键动作上,GRPO剧烈震荡、迟迟学不会“何时该后退”,SOLAR-RL则快速收敛到0.8以上的高精度,有效避免了导航死循环;在“超长(≥14步)”任务上,这一稳定性优势进一步放大。

长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛图6
训练过程中的平均动作奖励。GRPO(蓝)在后期发生策略崩溃、奖励骤降,SOLAR-RL(橙)则单调上升并稳定收敛于约0.75。

论文给出的一个训练案例颇具代表性:在Simple SMS Messenger里“把刚发给Juan Alves的消息重新发一遍”。

轨迹一:智能体先在会话列表里误用长按(错误),随后纠正、进入正确的聊天页(第一次纠错成功);但当它发现“长按已发送消息”也无效时,却没能切换到“重新输入并发送”的正确策略,于是被困在一个看似合理、实则走不通的行为里——任务失败。
轨迹二:起步几乎相同,但它完成了连续两次纠错——先从会话列表切到正确的聊天页,再果断放弃无效的长按、改为重新输入并发送,最终成功完成任务。

这揭示了长程GUI任务的本质:成功不在于“一次都不犯错”,而在于“能否一错再纠、连续从次优状态里爬出来”。这正呼应了SOLAR-RL的设计动机——失败点信用分配帮助定位轨迹从哪一步开始走偏,轨迹感知奖励塑形则抑制智能体在失败后继续重复无效动作链,鼓励它放弃无效局部行为、重新回到有效决策路径上。

局限与未来方向

我们也坦诚指出了方法的边界与下一步:

其一,半在线机制受限于离线数据的覆盖面,无法见到分布之外的全新状态(如未见过的弹窗、延迟引起的界面变化),它“模拟”在线反馈但并不替代真实环境交互;

其二,当前有效性校验依赖真值标签,未来可替换为学习型验证器或奖励/评判模型,从而拓展到弱标注、无标注的GUI数据;

其三,目前评测主要集中在移动(Android)环境,将轨迹感知奖励塑形推广到动作更丰富的桌面操作系统与网页浏览器,还需要平台特定的有效性标准与基准。这些都是我们后续探索的方向。

论文标题:SOLAR-RL: Semi-Online Long-horizon Assignment Reinforcement Learning
论文地址:https://arxiv.org/abs/2604.22558

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


【学术投稿】请在工作日发送邮件至:ai@qbitai.com,标题注明【投稿】,并告诉我们:你是谁从哪来投稿内容附上项目/主页链接,以及联系方式

🎓 我们会 (尽量) 及时回复你 :)


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI vivo
more
2026中端机终极对决:小米/vivo/OPPO/荣耀,一个比一个狠!
把单反塞进折叠屏!还能一屏四用...7999元起,vivo真没对手了
外屏谁家供货才能不减配?三星携M14基材打造vivo X Fold 6折叠内屏…
vivo X Fold6配色公布,新机下周见
vivo X500影像规格疑似曝光 或将搭载LOFIC超大底主摄
vivo X Fold6 上手:堆到“满配”之后,它把宝押在了 AI 办公上
【旗舰】vivoXFold6参数公布 折叠大满配?
重构交互逻辑 全面赋能AI vivo X Fold6评测
vivo X Fold6 并行模式曝光:一屏四用,重构折叠屏多任务体验
曝vivo X Fold5累计销量超52万,X Fold6细节再曝
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号