活动报名｜无需任何标注数据，大模型也可自我提升，腾讯R-Zero，利用大模型自我奖励的强化学习训练来实现自我演进

报告主题：腾讯西雅图实验室：无需任何标注数据，大模型也可以自我提升

报告日期：09月10日（周三）10:30-11:30

报告要点:

自演进自提升 (Self-improvement / Self-evolving) 的大语言模型为实现超级智能提供了一条路径：它们能够自主生成、改进并从自身经验中学习。然而，现有的自演进训练方法仍然严重依赖于大量人工整理的任务和标注 (human annotation)，通常通过微调或强化学习来实现，这就成为推动 AI 系统超越人类智能能力的一大根本瓶颈。

为突破这一限制，我们提出了R-Zero。R-zero是一种从零开始自主生成训练数据的全自动框架。在这一框架中，首先从一个基础 LLM 出发，初始化两个具有不同角色的独立模型：一个是挑战者 (Challenger)，另一个是解答者 (Solver)。这两个模型分别独立优化，并通过交互共同进化：挑战者的奖励来自于提出接近解答者能力边界的任务，而解答者的奖励则来自于不断解决挑战者提出的更具挑战性的任务。由此，模型能够在无需任何预先存在的任务和标注的情况下，获得一个有针对性、不断进化的自我改进课程。我们的实验表明在不同的基础 LLM 上显著提升了推理能力。例如，在数学推理基准上，Qwen3-4B-Base 提升了 +6.49，在通用领域推理基准上提升了 +7.54。

在这个talk中，我还将简略介绍腾讯AI实验室在这个方向（利用大模型自我奖励的强化学习训练来实现自我演进的）的一系列工作和核心收获。

报告嘉宾：

于文豪是腾讯 AI 西雅图实验室的高级研究员，主要研究方向为自演进大模型和智能体 (Agent)。他的学术成果已被谷歌统计引用5700余次，并在 ICLR、NeurIPS、ACL 等机器学习与自然语言处理顶级会议上发表论文30余篇。其中多项研究工作（如 WebVoyager）已被 OpenAI、Google 等机构采用。他曾荣获 EMNLP 2023 杰出论文奖、Bloomberg PhD奖学金等荣誉。

热门报告