腾讯混元青云计划焦政博：面向Coding Agent的Agentic RL扩展｜AgenticAICon 2026

7月2-3日，2026中国AI智能体大会（AgenticAICon 2026）将在杭州君悦酒店正式举行。

腾讯混元青云计划研究员焦政博已确认出席，将在7月2日分会场一下午的Coding Agent技术研讨会带来报告，主题为《面向 Coding Agent 的 Agentic RL 扩展：任务合成与环境构造》。

Part.1

嘉宾介绍

腾讯混元青云计划焦政博：面向Coding Agent的Agentic RL扩展｜AgenticAICon 2026图1

焦政博，现为香港中文大学MMLab研究实习生，同时担任腾讯混元青云计划实习生，关注基础模型的能力提升，并长期与上海交通大学张林峰教授开展合作研究。此前任职于阿里巴巴AIData研究团队，担任研究实习生，工作期间持续与Qwen团队协同配合，围绕模型能力提升参与大模型推理、训练、评估全流程研发。同时担任NeurIPS、ICML、ARR等顶级学术会议审稿人。其主要研究领域为Data-Centric LLM，现阶段研究工作围绕Agentic RL与模型的self-evolving，涵盖Search、Swe、Computer use等Agent的智能体环境拓展与合成，他已完成多项具有代表性的研究工作，主要包括Socratic系列（Zero、Geo、SWE）、Agentic Proposing以及SearchEyes。相关学术论文已被ICML、ACL、CVPR等国际顶级会议正式录用。

个人主页:Frostlinx.github.io

Part.2

报告主题

《面向 Coding Agent 的 Agentic RL 扩展：任务合成与环境构造》

Part.3

报告概要

Agentic RL 正在成为训练长程交互式智能体的主流范式。以 Coding Agent 为代表的复杂任务通常具有长程多步、环境交互频繁、反馈延迟等特点，对训练数据的规模、多样性以及反馈质量提出了远高于传统 RL 的要求。然而，现有训练数据来源无论是开源代码库、人工编写语料，还是模板化合成数据，都难以在模型能力持续提升的过程中稳定提供有效学习信号，普遍面临难度分布固化、任务形式同质化、验证机制不充分等问题。高质量训练数据的枯竭，已成为制约 Agentic RL 进一步发展的核心瓶颈。

本次演讲将从“任务合成”与“环境演化”两条主线出发，探讨如何构建能够随 Agent 能力共同成长的动态训练环境。我们将重点讨论如何降低 Coding Agent 长程交互环境扩展的基础设施成本，如何构造难度合适、具备多样性和真实性的任务等问题，最终，演讲将围绕一个核心问题展开：如何将环境的生成、验证与持续演化本身，打造为一个可扩展、可复用、可自我增强的系统。

腾讯混元青云计划焦政博：面向Coding Agent的Agentic RL扩展｜AgenticAICon 2026图2

大会日程

腾讯混元青云计划焦政博：面向Coding Agent的Agentic RL扩展｜AgenticAICon 2026图3

腾讯混元青云计划焦政博：面向Coding Agent的Agentic RL扩展｜AgenticAICon 2026图4

参会方式

大家可以扫描下方二维码添加小助手“桐桐”进行报名参会。已添加过“桐桐”的老朋友，可以给“桐桐”私信，发送“AgenticAI 26”即可报名。

腾讯混元青云计划焦政博：面向Coding Agent的Agentic RL扩展｜AgenticAICon 2026图5