活动报名|无需任何标注数据,大模型也可自我提升,腾讯R-Zero,利用大模型自我奖励的强化学习训练来实现自我演进

智源社区 2025-09-09 12:00
资讯配图

报告主题:腾讯西雅图实验室:无需任何标注数据,大模型也可以自我提升

报告日期:09月10日(周三)10:30-11:30

报告要点:

自演进自提升 (Self-improvement / Self-evolving) 的大语言模型为实现超级智能提供了一条路径:它们能够自主生成、改进并从自身经验中学习。然而,现有的自演进训练方法仍然严重依赖于大量人工整理的任务和标注 (human annotation),通常通过微调或强化学习来实现,这就成为推动 AI 系统超越人类智能能力的一大根本瓶颈。

为突破这一限制,我们提出了R-Zero。R-zero是一种从零开始自主生成训练数据的全自动框架。在这一框架中,首先从一个基础 LLM 出发,初始化两个具有不同角色的独立模型:一个是挑战者 (Challenger),另一个是解答者 (Solver)。这两个模型分别独立优化,并通过交互共同进化:挑战者的奖励来自于提出接近解答者能力边界的任务,而解答者的奖励则来自于不断解决挑战者提出的更具挑战性的任务。由此,模型能够在无需任何预先存在的任务和标注的情况下,获得一个有针对性、不断进化的自我改进课程。我们的实验表明在不同的基础 LLM 上显著提升了推理能力。例如,在数学推理基准上,Qwen3-4B-Base 提升了 +6.49,在通用领域推理基准上提升了 +7.54。

在这个talk中,我还将简略介绍腾讯AI实验室在这个方向 (利用大模型自我奖励的强化学习训练来实现自我演进的)的一系列工作和核心收获。

报告嘉宾:
于文豪是腾讯 AI 西雅图实验室的高级研究员,主要研究方向为自演进大模型和智能体 (Agent)。他的学术成果已被谷歌统计引用5700余次,并在 ICLR、NeurIPS、ACL 等机器学习与自然语言处理顶级会议上发表论文30余篇。其中多项研究工作(如 WebVoyager)已被 OpenAI、Google 等机构采用。他曾荣获 EMNLP 2023 杰出论文奖、Bloomberg PhD奖学金等荣誉。
资讯配图
热门报告
资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
官方辟谣充电宝3C认证失效,李想承认管理模式错误,威马成立新销售公司,豆包输入法上线AppStore,这就是今天的其他大新闻!
从规模扩张迈向高质高端,四川加速打造世界级动力电池产业集群
界面层创新:全固态钠电池稳定性实现突破性提升
广州计量院承办的“广州市锂电池产品碳足迹标识认证专家组工作会议”成功召开
大学科研团队算出储能超级材料,拉满电池上限
消息曝小米汽车成立架构部,雷军亲自带队!网传“半固态电池”统一命名为“固液电池”?3D打印扭曲超材料为车辆提供适应性冲击保护
威马工厂被接盘,电池企业跨界造车!
垃圾佬狂喜:小米停产的二合一充电头里,拆出了两颗三星18650锂电池!
不要对固态电池有太多幻想
2025年全球及中国钠电池正极材料行业竞争格局及趋势分析:钠电池出货增量提速带动正极材料出货增长,聚阴离子类成为市场主流[图]
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号