首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

量子位 2025-09-27 09:30
SGLang团队 投稿
量子位 | 公众号 QbitAI

开源框架实现100%可复现的稳定RL训练!

下图是基于Qwen3-8B进行的重复实验。两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障

这就是SGLang团队联合slime团队的最新开源成果。

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合图1

近期,Thinking Machines Lab (由 OpenAI 前 CTO Mira Murati 创立) 发布了一篇文章——《克服LLM推理中的不确定性》,指出问题的核心在于缺乏批次不变性 (batch invariance)。

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合图2

自从这篇博客发布后,业界反响热烈,一直期待开源推理引擎能实现稳定可用的确定性推理,或者更进一步,实现完全可复现的RL训练。而现在,SGLang和slime一起给出了答案。

SGLang团队在Thinking Machines Lab发布的批次不变算子基础之上,通过定制一系列注意力算子和采样逻辑,实现了完全确定性推理。该实现同时保持与分块预填充 (chunked prefill)、CUDA Graph、Radix Cache 和非贪婪采样 (non-greedy sampling) 等关键功能的兼容性。

利用CUDA Graph,SGLang可以实现2.8倍的加速。与 Thinking Machines Lab博客中报告的61.5%性能下降相比,SGLang在FlashInfer和FlashAttention 3后端平均仅有34.35%的性能下降

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合图3

在此基础上,SGLang团队联合slime团队一起,以极少代码实现了完全可复现的稳定RL训练,具体细节现在全面公开。

问题的本质:为什么LLM推理不确定?

从大语言模型(LLM)推理中获得一致输出的能力越来越重要。例如,推理结果的不确定性可能会隐式地将在线策略强化学习(RL)转换为离线策略RL。然而,即使将温度降到0,由于使用了动态批处理(Dynamic Batching) 和基数缓存(Radix Cache),采样仍然不是确定性的。

Thinking Machines Lab的研究发现,不确定性的最大来源是变化的批次大小:即使用户重复提交相同的提示,输出也可能在不同的运行中有所变化,因为请求可能与其他用户的请求一起批处理,批次大小的差异导致不确定的推理结果。

更具体地说,不同的批次大小会影响内核的归约(reduction)分割过程。这导致每个归约块的顺序和大小变化,由于浮点运算的非结合性,可能导致不确定的输出。为了解决这个问题,他们实现了批次不变(batch invariant) 的归约算子(RMSNorm、Matmul)。这些算子也作为配套库发布供外部集成。

在Thinking Machines Lab工作的基础上,SGLang提供了强大、高吞吐量的确定性 LLM 推理解决方案,将批次不变(batch invariant)算子、CUDA 图、基数缓存和分块预填充与高效性能相结合。通过全面的测试和强化学习训练实验,其确定性得到了充分验证。

主要增强功能包括:

实验结果

确定性评估

引入了一个确定性测试,以验证推理结果在不同批处理条件下是否保持一致。该测试包含三个子测试,难度循序渐进:

以下是50次采样试验的结果。数字表示每个子测试观察到的独特输出数量(数值越低,确定性越高)。

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合图4

离线推理性能评估:

使用三种常见的RL推理工作负载(256个输入/输出长度不同的请求)来衡量非确定性模式和确定性模式的端到端延迟。

测试结果显示,确定性推理具有良好的可用性,大部分性能下降控制在25%到45%之间,其中FlashInfer和FlashAttention 3后端的平均性能下降为34.35%。大部分开销来自未经优化的基于Triton编写的批次不变算子,这表明性能仍有很大的提升空间。

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合图5

团队确实观察到确定性推理比正常模式要慢。因此建议主要将其用于调试和复现性。SGLang团队未来的工作之一将专注于加速确定性推理,目标是将性能差距缩小到20%以内,或理想情况下达到与正常模式持平。

使用方法

SGLang环境设置:

# 使用最新的主分支git clone https://github.com/sgl-project/sglang.gitcd sglang# 安装 Python 依赖pip install --upgrade pippip install -e "python[all]"

启动SGLang Server:

SGLang支持多种模型的确定性推理。例如,对于Qwen3-8B,您只需在启动服务器时添加—enable-deterministic-inference参数:

python3 -m sglang.launch_server \    --model-path Qwen/Qwen3-8B \    --attention-backend <flashinfer|fa3|triton> \    --enable-deterministic-inference

未来工作

团队未来的努力将集中在以下领域,以增强确定性推理的性能和可用性:

SGLang的确定性推理和slime的可复现训练功能目前正在积极完善中,团队诚挚欢迎广大用户和开发者积极试用,并提供宝贵的反馈意见。您的使用体验和建议将推动这一重要功能的进一步优化,推动确定性推理技术的发展。

参考链接:

[1]https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

[2]https://lmsys.org/blog/2025-09-22-sglang-deterministic/ 

[3]https://github.com/sgl-project/sglang/issues/10278

[4]https://thudm.github.io/slime/_examples_synced/reproducibility/README.html

[5]https://github.com/THUDM/slime/pull/370

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合图6


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
从模型到生态:2025 全球机器学习技术大会「开源模型与框架」专题前瞻
阿里又一大模型开源,手机电脑样样玩的溜,多项测试秒GPT-5
阿里Qwen3-Omni开源发布,重新定义多模态,继GPT-4o之后,真正的全能AI来了?
刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了,代码已开源
软件全面开源开放,昇腾AI生态发展进入加速期
代码生成要变天了?被质疑架空后,Yann LeCun携320亿参数开源世界模型“杀回来了”
LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典
智元参与筹建开源鸿蒙具身智能 PMC,以灵渠 OS 共筑机器人开源生态
超越Langfun、OWL!这个国产开源智能体杀进全球第一梯队
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号