强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

量子位 2025-08-07 18:01
henry 发自 凹非寺
量子位 | 公众号 QbitAI

强化学习+任意一张牌,往往就是王炸。

专注于LLM+RL的科技公司OpenPipe提出全新开源强化学习框架——MCP·RL。

只需一个MCP Server的地址,agent就能自动发现工具、生成任务,通过强化学习在闭环反馈中摸索出最优调用策略。

在实测中,MCP·RL更是在2/3的benchmark上达到或超过SOTA性能,效果直接拉满。

资讯配图

不套公式,在“做中学”,这就是专属RL的power!

资讯配图

MCP·RL的做中学

想明白MCP·RL怎么个“做中学”法,咱们有必要简单过一下传统MCP的流程:

举个例子,假如你想让agent帮自己读邮件、分类、写回复,那么你就得提前设置好整个工作流:

准备邮件数据、注册工具、写prompt规划执行顺序。

此外,你还得设置回退逻辑,以防中途崩掉。

而这只是一个发邮件的例子,功能一多,配置量指数级上升。

最关键的是——你得知道怎么拆任务、调工具、写逻辑。

换句话说,agent就是在做你给他出的完形填空。

而你,我的朋友,要填除了空以外的所有东西。

MCP·RL的提出就是为了解决这一问题。

你只需提供MCP Server地址,不用配置工具、不用写prompt、不用人工标注。

模型就能自己发现工具、自己设计任务、自己实战训练,边跑边学。

资讯配图

简单来说,MCP·RL的训练流程分四步:

总结下来就是:任务场景是什么?AI找;工具怎么用?AI学;流程怎么拆?AI想;效果好不好?AI试。

一位网友精辟的点出了这一转变:

我们曾借助MCP让AI调用工具,而现在是AI反过来利用MCP。

资讯配图

那么,它的效果如何呢?

正如我们开头提到的,MCP·RL在2/3的基准测试中达到SOTA。

资讯配图

而在具体的部署层面,MCP·RL无需标注数据,适用于任何Server,无需定制MCP接口,开箱即用。

One more thing

MCP·RL是科技公司OpenPipe基于强化学习的智能体训练系统(Agent Reinforcement Trainer,ART)的最新项目。

ART是一个开源强化学习框架,其核心思想是让LLM从经验中学习,从而提高agent的可靠性,ART可以将GRPO集成到任何Python应用中。

在此前的实测中,ART(Agent Reinforcement Trainer)对Qwen 2.5-14B进行强化训练,其在一项电子邮件检索任务中表现优于o3,实现了SOTA(state-of-the-art)。

资讯配图

参考链接:
[1]https://x.com/corbtt/status/1953171838382817625
[2]https://github.com/OpenPipe/ART?tab=readme-ov-file#-notebooks

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


💻 8月7日周四下午14点,量子位AI沙龙邀请了来自模型厂商、IDE、零代码平台、Agent等产品代表,一同聊聊AI Coding将如何重构开发

👩‍💻 欢迎线下参会!来和百度文心快码智谱Kimi硅心科技海新智能CREAOIDEA面对面交流 👇 

资讯配图


一键关注 👇 点亮星标

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源
more
对话阶跃姜大昕:首次开源基座模型,回顾创业两年半
奥特曼深夜官宣:OpenAI重回开源!两大推理模型追平o4-mini,号称世界最强
【AI】扣子开源全家桶,Apache2.0加持,AIAgent又一次卷到起飞
会员活动|企业家俱乐部闭门沙龙暨文心开源开放日·上海站:共探AI时代企业破局之道
gpt-oss:OpenAI 终于认可了开源生态
从 DeepSeek-R1 到OpenAI gpt-oss,开源背后,是中美AI罕见正和博弈
Claude 小升级就赢了OpenAI 9年“开源神作”?高强度推理直接歇菜、幻觉率高达50%,写作还被Kimi 2吊锤?
刚刚,小米又开源一大模型,22个公开测评SOTA
一日三连发!OpenAI踏上开源路,Anthropic抢占AI编码高地,谷歌拿出最强世界模型
刚刚,腾讯混元一口气开源4款小模型,手机也能跑
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号