WAIC 2025思辨会七 | 强化学习是否是开启决策智能的“黄金钥匙”?

世界人工智能大会 2025-08-07 17:47
资讯配图

2025年,人工智能迎来关键转折点——强化学习驱动的AI智能体正从实验室走向真实世界,在工业控制、自动驾驶、机器人决策等多个领域掀起一场“智能体革命”。这一年,被业界广泛称为“强化学习AI智能体的爆发之年”。不同于依赖静态数据训练的传统模型,强化学习智能体通过与环境持续交互、自主试错与奖励反馈,逐步掌握复杂任务的最优策略,展现出前所未有的适应性与决策能力,强化学习智能体正在重新定义“智能度”的边界。强化学习正加速从“理论优势”转化为“产业动能”。这一年,我们不仅见证了AI智能体的能力跃升,更迎来了智能体走向自主化、规模化落地的关键起点。


2025年7月26日上午,2025年世界人工智能大会(WAIC)成功举办了一场以“强化学习AI智能体——爆发之年”为主题的圆桌思辨会。本次活动汇聚学界与产业界前沿力量,聚焦强化学习驱动的AI智能体在技术突破与产业落地中的关键议题。会上,强化学习领域专家朱哲清博士发表精彩主题演讲,深入剖析了智能体在自主决策、环境交互与持续学习中的最新进展。随后,围绕“强化学习、推理能力与Agent的未来”这一核心议题,展开了一场高水平的专家圆桌对话。上海交通大学副教授、清源研究院院长助理刘鹏飞,香港科技大学计算机科学与工程系助理教授何俊贤等专家学者齐聚一堂,就智能体的推理架构演进、多智能体协同、训练效率提升及安全可控等前沿问题展开深度思辨,共同探讨AI智能体迈向通用化与产业化的未来路径。


Pokee.ai创始人朱哲清拥有超过十年的强化学习研究与实战经验,他在斯坦福大学获得强化学习方向博士学位,并曾担任Meta AI应用强化学习组负责人,具备深厚的学术背景与丰富的工业落地经验。在以“强化学习+AI智能体”为主题的演讲中,朱哲清首先回顾了强化学习(RL)算法的发展历程,从AlphaGo的突破性胜利,到InstructGPT等基于人类反馈的聊天AI系统,深入探讨了现代强化学习技术在各行各业中的广泛应用及其关键作用。他详细阐明了强化学习与监督学习的本质区别,并特别强调了PPO等经典RL算法在RLHF(基于人类反馈的强化学习)中的核心地位——通过引入循环反馈机制,AI的回答能够更精准地与人类偏好对齐,实现更加自然、智能的交互体验。随后,朱老师介绍了一些当前前沿的RL研究方向以及各类前沿新框架,并指出“RL算法是能够具有强泛化能力的”。他还提到,强化学习在机器人领域展现出巨大潜力,而如今算力与硬件的发展也为RL的进一步落地提供了有力支撑——相较于模型预训练所需的庞大计算资源,强化学习的训练成本相对较低,未来发展充满潜力。通过这次演讲,朱哲清不仅系统性地展示了强化学习从理论走向实践的演进路径,也分享了他对强化学习在AI智能体未来发展中的深刻洞察,强调其在工具调用、行为对齐等方面的关键作用,并指出随着研究节奏的加快,RL领域正迎来一个更加高效、开放的创新周期。


资讯配图


在随后以“强化学习、推理能力与Agent的未来”为主题的圆桌讨论中,香港科技大学助理教授何俊贤、Pokee.ai创始人及斯坦福大学博士朱哲清、上海交通大学副教授兼清源研究院院长助理刘鹏飞,围绕强化学习的技术进展、应用路径以及智能体(Agent)未来发展展开了深入交流。三位嘉宾结合各自的研究与实践经验,分享了对当前技术趋势的洞察,也坦诚探讨了强化学习在样本效率、环境建模、可解释性等方面仍面临的挑战。他们普遍认为,强化学习具备强大的泛化潜力,正在从游戏、聊天等传统场景延伸至更广泛的现实应用,在推动AI实现自主决策与复杂任务推理方面展现出广阔前景。


资讯配图


结论:随着大模型与强化学习的深度融合,AI智能体正从“被动执行”迈向“主动思考”与“自主行动”的新阶段。本次圆桌思辨会不仅展现了学术界对智能体核心技术的深刻洞察,也折射出产业界对落地场景的迫切期待。从实验室的算法突破到真实世界的复杂决策,强化学习AI智能体已在医疗、制造、交通、金融等领域初露锋芒。正如与会专家所共识:2025年是AI智能体真正“爆发”的起点,而未来的智能体不仅是工具,更是具备持续学习与协作能力的“数字生命”。在技术演进与伦理规范并重的前提下,强化学习将推动人工智能从“感知智能”迈向“决策智能”的全新时代。这场关于智能体未来的思辨,不仅点燃了创新的火花,更吹响通往自主智能世界的号角。


资讯配图





资讯配图
资讯配图
资讯配图
资讯配图
资讯配图

资讯配图

点击阅读原文查看WAIC 2025精彩!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
又是浙大校友!AI眼镜“隔空取物”,戴上即可随心选中现实世界任意物体
OpenAI开源了!手机也能流畅跑
AI如何重新定义“读懂人心”——对话姚峰教授
产业丨从WAIC2025看:算力竞逐升维战,模型落地攻坚时
【AI】GPT-5真身曝光,首测编程惊艳全网!一句话秒生游戏,OpenAI双雄备战AGI
Dwarkesh Patel:我花了100小时,才发现AI最大的瓶颈不是智力,而是学不会
GPT-5发布时间定了,图标版本曝光/大疆发布首款扫地机器人/马斯克Grok4或称霸AI象棋大赛
让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题
当马斯克“AI版Vine”撞上Veo 3,谁更胜一筹?
展商直击 | WAIC 2025 绽放锋芒:云锦微智能体路由器 ARGUS 引行业瞩目
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号