快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

机器之心 2026-06-20 07:39
快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了图1


本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集、完整训练代码,以及针对异构多任务的新算法 TMN-Reweight。


快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了图2



快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了图3

图 1:GoLongRL-30B-A3B 与各顶级模型的长上下文综合评测对比


为什么现有的长上下文 RL 方法不够好?


当前主流的长上下文 RL 方法(LoongRL、LongRLVR、QwenLong-L1.5 等)有两个共同问题:训练数据基本围绕 “在更长文本里找更难找的答案” 这条路走,任务覆盖高度同质;奖励设计被压缩为单一的精确匹配或准确率,排序、摘要、穷举检索这些能力几乎没有直接监督。


数据:以能力为导向


三大设计原则


GoLongRL 的数据构造遵循三大原则:能力导向、奖励与任务语义对齐、真实文档优先。


能力导向。参考 LongBench Pro 提出的能力分类体系,定义了 9 种核心任务类型,覆盖长上下文理解所需的关键能力维度。T1-T4 构成训练主干(占比超过 90%),覆盖基础长上下文能力;T6-T9 的样本量相对较少(合计不足 4%),但每种任务都保留了其最自然的奖励形式,确保完整的能力覆盖。


这 9 大任务类型及其对应的能力维度如下:


快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了图4

表 1:GoLongRL 数据集能力类型及其对应奖励


奖励与任务语义对齐。长上下文任务在评估维度上差异显著:摘要依赖 ROUGE,排序依赖 NDCG,抽取依赖 F1,将其统一压缩为单一指标会损失大量任务特有的语义信息。GoLongRL 为每类任务单独配置最契合其目标的评估指标作为奖励函数,使 RL 训练中的反馈信号与任务本身的评估逻辑保持一致。


真实文档优先。基于模板的合成数据存在一个结构性风险:当多段短文档被拼接为长输入时,段落边界与格式标记本身携带了可被利用的位置信息,模型容易习得依赖这类浅层线索作答的捷径,而非形成真正的跨段落理解能力。因此 GoLongRL 以书籍、学术论文、法律文书和财务报告等真实文档为主要训练来源。对于标注稀缺的领域,仅在真实文档上合成问答对,而非生成文档本身。


快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了图5

图 2:训练数据的 UMAP 投影


数据来源:开源策略与合成策略并行


数据集的 22,965 个样本来自两个互补的池子:



四阶段构造 pipeline


快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了图6

图 3:GoLongRL 数据构造四阶段 pipeline


整个数据集通过统一的四阶段流水线生产:



TMN-Reweight:面向异构多任务的优化算法


能力导向的数据集带来了 9 种不同的奖励函数,它们的数值尺度和方差分布各不相同。在标准 GRPO 框架下进行混合训练时,优化过程面临两个相互纠缠的问题。



TMN-Reweight 的核心思路


TMN-Reweight 将尺度归一化与难度校正解耦为两个独立步骤



实验结果


主要结果:4B 模型达到 SOTA


4B 规模上的实验设计使得数据贡献和算法贡献可以独立评估:


快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了图16

表 3:主实验 - 4B


4B 规模:仅凭数据,vanilla GRPO 已比 QwenLong-L1.5(GRPO)高 6.1 分(62.2 vs 56.1),甚至超过其专用算法 AEPO 版本(59.4 分)。加上 TMN-Reweight 进一步提升至 63.0。


主要结果:30B 模型超越顶级旗舰模型


快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了图17

表 4:主实验 - 30B


30B 规模:GoLongRL-30B-A3B 以 69.8 分超越 DeepSeek-R1-0528(68.67)、Qwen3-235B-A22B-Thinking-2507(68.45)和 Gemini-2.5-Flash-Thinking(68.73),也全面超越同等算法(GRPO)训练的 QwenLong-L1.5-30B(67.2)。


通用能力保持与迁移


长上下文 RL 训练没有带来负迁移。通用推理上,4B 和 30B 模型在 MMLU-Pro、AIME24/25、GPQA-Diamond 上均有小幅提升,两个规模的模型趋势一致。


更值得关注的是迁移效果。Agentic Memory 的 Memory-Vec 和 Memory-Rec_Sum 两项任务训练中从未出现过,但 4B 模型 Memory-Rec_Sum 仍提升了 9.7 分,30B 提升 4.5 分。对话记忆(LongMemEval)两个规模均提升 13.6 分(4B: 47.6→61.2;30B: 61.6→75.2),30B 超过 QwenLong-L1.5-30B 的 72.2 分。说明长上下文 RL 学到的信息整合能力能迁移到训练中没见过的任务上。


长度外推能力


GoLongRL 训练上下文为 160K,但能力可以泛化到更长的序列。4B 模型在 MRCR 128K–512K 提升 12.27 分、512K–1M 提升 3.50 分;30B 更明显,MRCR 128K–512K +12.61、512K–1M +5.45,CorpusQA 1M +2.74。160K 训练习得的能力没有被局限在训练长度范围内。


总结


数据覆盖度和奖励多样性是长上下文 RL 的主要瓶颈,而非算法本身。把任务从 "复杂检索路径" 扩展到更全面的能力维度,并为每种任务匹配语义合适的奖励函数,即使较小的模型也能达到与旗舰模型相当的长上下文性能。


数据集、模型和训练与评测代码已完整开源。


快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了图18


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
开源了!pi*0.6 算法RECAP
腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作
打破SWE-bench唯分数论,首个独立测量harness的基准开源了
没想到 PI 押注的真机RL,这家公司把他做到了全球大规模开源
一个“最像教科书”的开源RISC-V SoC:NEORV32
CVPR 2026 | 破解开放世界“语义盲区”:北大和华为团队携手开源大规模OmniVTG数据集,用“自我反思”机制补齐定位短板
刚刚,Mind Lab开源V1系列模型Preview,749B参数,专为Agent 后训练
华为突然开源15万行代码,造福全人类
视频AI卷向5分钟:全量开源,一次生成,正式告别「盲盒抽卡」
腾讯Robotics X开源HyVLA-0.5:基于亚毫米级指套UMI与真机强化,摆脱繁重遥操
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号