活动报名|无需任何标注数据,大模型也可自我提升,腾讯R-Zero,利用大模型自我奖励的强化学习训练来实现自我演进

智源社区 2025-09-09 12:00
资讯配图

报告主题:腾讯西雅图实验室:无需任何标注数据,大模型也可以自我提升

报告日期:09月10日(周三)10:30-11:30

报告要点:

自演进自提升 (Self-improvement / Self-evolving) 的大语言模型为实现超级智能提供了一条路径:它们能够自主生成、改进并从自身经验中学习。然而,现有的自演进训练方法仍然严重依赖于大量人工整理的任务和标注 (human annotation),通常通过微调或强化学习来实现,这就成为推动 AI 系统超越人类智能能力的一大根本瓶颈。

为突破这一限制,我们提出了R-Zero。R-zero是一种从零开始自主生成训练数据的全自动框架。在这一框架中,首先从一个基础 LLM 出发,初始化两个具有不同角色的独立模型:一个是挑战者 (Challenger),另一个是解答者 (Solver)。这两个模型分别独立优化,并通过交互共同进化:挑战者的奖励来自于提出接近解答者能力边界的任务,而解答者的奖励则来自于不断解决挑战者提出的更具挑战性的任务。由此,模型能够在无需任何预先存在的任务和标注的情况下,获得一个有针对性、不断进化的自我改进课程。我们的实验表明在不同的基础 LLM 上显著提升了推理能力。例如,在数学推理基准上,Qwen3-4B-Base 提升了 +6.49,在通用领域推理基准上提升了 +7.54。

在这个talk中,我还将简略介绍腾讯AI实验室在这个方向 (利用大模型自我奖励的强化学习训练来实现自我演进的)的一系列工作和核心收获。

报告嘉宾:
于文豪是腾讯 AI 西雅图实验室的高级研究员,主要研究方向为自演进大模型和智能体 (Agent)。他的学术成果已被谷歌统计引用5700余次,并在 ICLR、NeurIPS、ACL 等机器学习与自然语言处理顶级会议上发表论文30余篇。其中多项研究工作(如 WebVoyager)已被 OpenAI、Google 等机构采用。他曾荣获 EMNLP 2023 杰出论文奖、Bloomberg PhD奖学金等荣誉。
资讯配图
热门报告
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
【一周热点】TSS2026六大亮点一览;12家存储厂商Q1财报;华为哈勃投资弥尔光半导体
华为推出鸿蒙版龙虾/小米YU7 GT实车曝光/苹果拟引入长江存储
存储的盛宴里,CIS芯片却有了N种方向
随着AI引发全球存储器供需紧张,Omdia将2026年半导体行业预测上调至增长62.7%
存储正成为下一代AI系统的关键?
长江存储加速扩产三厂齐建 国产设备占比首超五成引行业关注
三星中国将大调整:只保留手机和存储部门,其余全撤;携程集团启动无理由事假管理实验:员工可无理由请假;美国AI三巨头封杀中国模型蒸馏
同比暴增341.53%,佰维存储发布Q1亮眼成绩单
长鑫存储:正在成为联想们 “不涨价” 的希望
存储芯片,逻辑被改写
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号