通义张凡瑞博士:基于组内相对排名的开放式 Agent 强化学习方法与实践|AgenticAICon 2026

智猩猩 2026-06-13 19:00

7月2-3日,2026中国AI智能体大会(AgenticAICon 2026)将在杭州君悦酒店正式举行。


中国科大与上海创智学院联培博士、通义实习研究员张凡瑞已确认出席,将在7月3日分会场一下午的深度研究智能体技术研讨会带来报告,主题为《基于组内相对排名的开放式 Agent 强化学习方法与实践》


 Part.1

嘉宾介绍

通义张凡瑞博士:基于组内相对排名的开放式 Agent 强化学习方法与实践|AgenticAICon 2026图1

张凡瑞,中国科大与上海创智学院联培博士,通义实习研究员。研究聚焦于开放式Agent及虚假信息检测。截至目前,以一作或共一身份在NeurIPS、ICML、WWW等CCF A类国际顶会发表学术论文7篇。

Part.2

报告主题

《基于组内相对排名的开放式 Agent 强化学习方法与实践》

Part.3

报告概要

开放式任务缺少唯一标准答案,传统 pointwise 奖励容易出现区分度不足、噪声放大的问题。ArenaRL 通过将组内轨迹放入“竞技场”,使用 pairwise 对比和锦标赛排名来生成更稳定、更高信噪比的奖励,从而提升开放式 Agent 在复杂规划、搜索研究、写作等任务上的表现。


通义张凡瑞博士:基于组内相对排名的开放式 Agent 强化学习方法与实践|AgenticAICon 2026图2

大会日程


通义张凡瑞博士:基于组内相对排名的开放式 Agent 强化学习方法与实践|AgenticAICon 2026图3


通义张凡瑞博士:基于组内相对排名的开放式 Agent 强化学习方法与实践|AgenticAICon 2026图4

参会方式


大家可以扫描下方二维码添加小助手“桐桐”进行报名参会。已添加过“桐桐”的老朋友,可以给“桐桐”私信,发送“AgenticAI 26”即可报名。

通义张凡瑞博士:基于组内相对排名的开放式 Agent 强化学习方法与实践|AgenticAICon 2026图5

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI IC
more
登Nature子刊!清华团队提出全球气候模态统一预测模型UniCM
突发!Anthropic全球停用Claude 5
ICML 2026|一句无关问题也能劫持Agent,港科大&复旦提出首个语义缓存键碰撞攻击
争论几十年的水之谜,被AI一举破解!港城大&中石大成果登Nature Physics
被抢单!ASIC市场,要变天了
Anthropic就模型降智道歉/追觅:9月推出无App手机/钉钉换帅,陈宇森接棒无招
不光答疑提效!中科闻歌的通用决策大模型,还帮我预测了Anthropic、OpenAI谁先上市
KV Cache终于不用无脑全留了!百度&复旦用「投资回报率」重新分配缓存|ICML 2026
SOPIC提名周新华参选RISC-V国际基金会社区董事,诚邀投票支持!
VOTE NOW! SOPIC Nominates Jam Zhou for RISC-V International Community Director
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号