R-Zero 深度解析:无需人类数据,AI 如何实现自我进化?

机器之心 2025-08-31 11:53


资讯配图


本文第一作者黄呈松 (Chengsong Huang) 是圣路易斯华盛顿大学的博士生,Google scholar citation 五百多次,目前的研究的兴趣是强化学习和大语言模型。机器之心曾经报道过其之前工作 Lorahub 已经被引超过 250 次。


大型语言模型(LLM)的发展长期以来受限于对大规模、高质量人工标注数据的依赖,这不仅成本高昂,也从根本上限制了 AI 超越人类知识边界的潜力 。《R-Zero:从零数据中自我进化的推理大模型》提出了一种全新的范式,旨在打破这一瓶颈。该研究设计了一个名为 R-Zero 的全自主框架,使模型能够从零开始,通过自我驱动的协同进化生成课程并提升推理能力,为通往更自主的人工智能提供了一条值得深入探讨的路径。


《R-Zero》论文的核心,是构建一个能从「零数据」开始自我进化的 AI 框架 ,主要依赖于两个 AI 角色 挑战者(Challenger)和 解决者(Solver)


资讯配图


挑战者 - 解决者的协同进化


R-Zero 的架构核心是从一个基础 LLM 出发,初始化两个功能独立但目标协同的智能体:挑战者(Challenger, Qθ)解决者(Solver, Sϕ)


这两个智能体在一个迭代的闭环中协同进化,整个过程无需人类干预 : 

 

1. 挑战者训练:在当前冻结的解决者模型上,挑战者通过强化学习进行训练,学习如何生成能使解决者表现出最大不确定性的问题。

2. 课程构建:更新后的挑战者生成一个大规模的问题池,作为解决者下一阶段的学习材料。

3. 解决者训练:解决者在这个由挑战者量身定制的新课程上进行微调,提升自身能力。

4. 迭代循环:能力增强后的解决者,成为下一轮挑战者训练的新目标。如此循环往复,两个智能体的能力共同螺旋式上升。


资讯配图


这是一个完全封闭、自我驱动的进化循环。在这个过程中,AI 自己生成问题,自己生成用于学习的「伪标签」,自己完成训练,完全不需要任何外部人类数据的输入。


具体实现方法


资讯配图


由于没有外部「标准答案」,解决者必须自我生成监督信号。


1. 难度校准:显式地剔除了过易或过难的任务。

2. 质量控制:一致性极低的问题(例如 10 次回答各不相同)往往是定义不清或逻辑混乱的,该机制能有效过滤掉这类噪声数据。消融实验证明,移除该步骤会导致模型性能显著下降 。


为了生成高效的课程,挑战者的奖励函数由三部分构成 :



实验结果与分析

资讯配图


数学推理能力显著提升:经过三轮自我进化,Qwen3-8B-Base 模型在多个数学基准测试上的平均分从 49.18 提升至 54.69(+5.51)。

  

向通用领域的强大泛化能力:尽管训练任务集中于数学,但模型的核心推理能力得到了泛化。在 MMLU-Pro、SuperGPQA 等通用推理基准上,Qwen3-8B-Base 的平均分提升了 3.81 分 。这表明 R-Zero 增强的是模型底层的通用能力,而非特定领域的知识记忆。


与人类数据的协同效应


资讯配图


实验证明,先经过 R-Zero 训练的基础模型,再使用人类标注数据进行监督微调,能达到比直接微调更高的性能。这说明 R-Zero 可以作为一种高效的中间训练阶段,最大化人类标注数据的价值 。


核心局限与未来展望


尽管成果显著,R-Zero 框架也揭示了其内在的挑战和局限性。



资讯配图

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
96GB+1TB!AMD锐龙AI MAX+ 395主机官宣:9月1日,正式开售!
AI知识库更新2:广东、江苏、福建、安徽县域特色产业资料
AI 制药,从“科幻片”变成“印钞机”:未来十年最大的医药造富浪潮
马斯克亲口证实xAI代码库被盗!涉案前员工被起诉,已跳槽OpenAI
空调成AI家电急先锋!美的海尔TCL入局,是噱头还是刚需?
【报告】数据专题四:2025具身智能数据:AI时代的石油(附PDF下载)
【北京·9/8】2025第五届数智化转型升级发展论坛——暨AI大模型&AI Agent趋势论坛
这个荒诞网站藏着30个AI「鬼点子」,但我觉得它活不长
从「卖设备」到「建关系」,AI 硬件的破局点到底在哪里?
华为昇腾领衔国产AI芯片军团!最火AI芯片峰会最新进展公布,IEEE Fellow将开场
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号