WebSailor可在开放网页环境中自主跳转页面、查找信息、整合多源线索并完成推理,适用于处理路径不明确、问题模糊、需多步判断的复杂检索任务。

01.


02.
通过“随机游走”模拟网页跳转行为,在真实网页中构建复杂知识图谱;
利用“图结构采样 + 信息模糊化”处理,制造多跳、非线性、起点不明的问题,提升任务不确定性。
RL前期:剔除过于简单的问题,集中训练高难度轨迹;
RL训练中:重复采样困难轨迹结果,并加入当前批次以高效迭代。
03.
WebWalker(2025年1月):主攻网页任务评测基准构建,提升评测标准化与复现性;
WebDancer(2025年5月):关注自主检索Agent策略学习,强化信息搜集与自决能力;
WebSailor(2025年7月):整合任务构建、调优与强化学习方法,首次在开源系统中实现对闭源系统的能力追近。
04.
