Agent,杀疯了 !!

当前正是Agent发展的黄金时期,对于想要在该领域发论文的同学来说,掌握其高效的学习路径、深入了解Agent的核心系统形态/技术融合创新至关重要。

本文根据以上三维视角,整理了131篇前沿论文,包含当前顶会热点“多智能体”、“大模型智能体”等,以及“入门→进阶→研究→应用”全流程必读经典论文。

另外,为方便大家理解,谷歌发布的321个Agent落地案例我也连同代码一起打包了,相信这份“大礼包”可以帮助各位快速入门,顺利开始论文写作。

Agent,杀疯了 !!图1

扫码添加小享,回复“agent合集

免费获取全部论文+代码+项目

Agent,杀疯了 !!图2

Agent 核心系统形态

这类是 Agent 入门时首先要理解的核心概念,直接决定系统的协作模式与应用场景。

单智能体

独立完成任务的单一智能体系统,聚焦 “个体决策、自主执行”,比如个人助理、单机器人控制。

ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting

方法:论文提出自适应变换单智能体(AᵀA),以Hunyuan-DiT为基础,通过含反向排列PosAgent块的RDT模块预测位移、调整主体位置,加位置切换嵌入支持“自适应/固定”模式,经混合训练后,在文本引导的背景补全任务(可变/固定主体位置)中表现优异。

Agent,杀疯了 !!图3

创新点:

  • 提出“文本引导主体位置可变背景补全”新任务,可自适应调整主体位置以匹配背景。
  • 设计含反向位移变换(RDT)模块的AᵀA单智能体,借反向排列的PosAgent块优化主体位置、缓解变形。
  • 为AᵀA加位置切换嵌入,支持“自适应/固定”位置切换,搭配混合训练适配两种补全场景。
Agent,杀疯了 !!图4

多智能体

由多个智能体组成的协同系统,聚焦 “群体协作、冲突解决”,如自动驾驶车队、医疗多模态诊断团队。

V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents

方法:论文提出V-Stylist多智能体系统做文本引导视频风格化:Video Parser拆视频、生提示,Style Parser搜匹配风格模型,Style Artist多轮反思调细节;三智能体协同解决核心痛点,还建TVSBench基准,性能超现有方法。

Agent,杀疯了 !!图5

创新点:

  • 提出V-Stylist多智能体系统,用Video Parser、Style Parser、Style Artist分别解决视频过渡、风格匹配、细节控制问题。
  • 给各智能体配特色机制:Video Parser拆视频生提示,Style Parser树状搜索匹配风格,Style Artist多轮反思调参数。
  • 构建TVSBench评测基准,含50个视频和17种风格,填补复杂视频风格化的评估空白。
Agent,杀疯了 !!图6

扫码添加小享,回复“agent合集

免费获取全部论文+代码+项目

Agent,杀疯了 !!图7

Agent 技术基础与融合创新

这类是实现 Agent 的 “技术底座” 与 “创新方向”,覆盖从 “怎么建、怎么用、怎么评” 到 “技术交叉创新” 的全流程,是论文选题的核心方向。

大模型智能体

以大模型为核心的 Agent 技术体系,包含 “构建、应用、评估” 全链路,是当前主流技术基础。

SWEET-RL:Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks

方法:论文为提升大模型智能体多轮协作能力,建了ColBench基准(含编程、设计场景),提了SWEET-RL算法——让智能体借训练时额外信息练优势函数、再优化策略,解决传统RL问题,使Llama-3.1-8B性能升6%,比肩GPT-4o。

Agent,杀疯了 !!图8

创新点:

  • 建ColBench基准,覆盖编程、设计真实协作场景,用LLM模拟交互并低成本评估,补全现有基准空白。
  • 提SWEET-RL算法,让大模型智能体借训练时参考信息,练回合级优势函数,解决传统价值函数泛化差问题。
  • 设计两阶段训练流程,用优势函数当奖励模型、DPO优化策略,提升大模型智能体性能,比肩GPT-4o。
Agent,杀疯了 !!图9

Graph+AI Agents

将 “图技术” 与 Agent 融合的创新范式,聚焦 “提升推理效率、优化记忆管理、增强多体协同”。

AFLOW: AUTOMATING AGENTIC WORKFLOW GENERATION

方法:论文提 AFLOW 框架,帮大模型智能体自动生成工作流:把工作流做成代码化搜索空间,用蒙特卡洛树搜索 + 预定义算子探索,大模型负责修改扩展工作流,结合执行反馈优化。它在 6 个数据集上超现有方法 5.7%,还能让小模型以 GPT-4o 4.55% 成本在特定任务上赶超。

Agent,杀疯了 !!图10

创新点:

  • 把大模型智能体工作流优化变成代码化搜索问题,用节点和逻辑边建模,不用人工设计。
  • 提出 AFLOW 框架,靠蒙特卡洛树搜索+预定义算子,结合大模型扩展、反馈优化工作流。
  • 让小模型以GPT-4o 4.55%成本在特定任务赶超它,且在 6 个基准数据集上平均优于现有方法 5.7%,平衡性能与成本。
Agent,杀疯了 !!图11

扫码添加小享,回复“agent合集

免费获取全部论文+代码+项目

Agent,杀疯了 !!图12

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
阿维塔与华为乾崑深化合作,广州车展开启HI PLUS
谷歌正式跟进苹果PCC,华为OPPO同步入局:边缘AI隐私战打响
华为AI玩具开售即秒罄/小鹏汽车:车展不雅视频系AI生成/Ilya辟谣Scaling Law终结论|Hunt Good 周报
小鹏华为联手!揭秘X9超级增程:时速150巡航不亏电,油耗低至2.53L…
小米17Ultra摄影套装谍照曝光 | 华为Mate80系列细节汇总
华为回应Mate80信号栏显示5A/ChatGPT迎来三岁「生日」/罗永浩透露与华杉录音内容:脏话很多无法公布
首发即爆单!华为AI玩具火出圈,千亿市场芯片厂商加速入局
三星首款三折叠来了!比华为晚,还比华为厚
11.7万起!三星首款三折叠发布,更厚更重,能打得过华为Mate XT?
十二年风雨兼程,华为Mate 80系列实力破圈,开启新篇
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号