7月2-3日,2026中国AI智能体大会(AgenticAICon 2026)将在杭州君悦酒店正式举行。
腾讯混元青云计划研究员焦政博已确认出席,将在7月2日分会场一下午的Coding Agent技术研讨会带来报告,主题为《面向 Coding Agent 的 Agentic RL 扩展:任务合成与环境构造》。
Part.1
嘉宾介绍

焦政博,现为香港中文大学MMLab研究实习生,同时担任腾讯混元青云计划实习生,关注基础模型的能力提升,并长期与上海交通大学张林峰教授开展合作研究。此前任职于阿里巴巴AIData研究团队,担任研究实习生,工作期间持续与Qwen团队协同配合,围绕模型能力提升参与大模型推理、训练、评估全流程研发。同时担任NeurIPS、ICML、ARR等顶级学术会议审稿人。其主要研究领域为Data-Centric LLM,现阶段研究工作围绕Agentic RL与模型的self-evolving,涵盖Search、Swe、Computer use等Agent的智能体环境拓展与合成,他已完成多项具有代表性的研究工作,主要包括Socratic系列(Zero、Geo、SWE)、Agentic Proposing以及SearchEyes。相关学术论文已被ICML、ACL、CVPR等国际顶级会议正式录用。
个人主页:Frostlinx.github.io
Part.2
报告主题
《面向 Coding Agent 的 Agentic RL 扩展:任务合成与环境构造》
Part.3
报告概要
Agentic RL 正在成为训练长程交互式智能体的主流范式。以 Coding Agent 为代表的复杂任务通常具有长程多步、环境交互频繁、反馈延迟等特点,对训练数据的规模、多样性以及反馈质量提出了远高于传统 RL 的要求。然而,现有训练数据来源无论是开源代码库、人工编写语料,还是模板化合成数据,都难以在模型能力持续提升的过程中稳定提供有效学习信号,普遍面临难度分布固化、任务形式同质化、验证机制不充分等问题。高质量训练数据的枯竭,已成为制约 Agentic RL 进一步发展的核心瓶颈。
本次演讲将从“任务合成”与“环境演化”两条主线出发,探讨如何构建能够随 Agent 能力共同成长的动态训练环境。我们将重点讨论如何降低 Coding Agent 长程交互环境扩展的基础设施成本,如何构造难度合适、具备多样性和真实性的任务等问题,最终,演讲将围绕一个核心问题展开:如何将环境的生成、验证与持续演化本身,打造为一个可扩展、可复用、可自我增强的系统。
大会日程

参会方式
大家可以扫描下方二维码添加小助手“桐桐”进行报名参会。已添加过“桐桐”的老朋友,可以给“桐桐”私信,发送“AgenticAI 26”即可报名。
