这半年以来,围绕Agent Skill的研究快速发展,涵盖技能构建、技能优化、技能评测以及具身技能等多个方向。随着Agent开始处理越来越复杂的长程任务,信息的发掘、组织与使用正在成为影响智能体能力上限的重要因素。
作为Agent能力构建的重要探索,美团LongCat Team将围绕Skill这一新型能力载体展开分享,探讨技能单体设计、技能拓扑结构构建以及技能从创建、维护到使用和内化的全生命周期机制,展示Skill如何成为连接知识、经验与Agent能力的重要桥梁,为构建具备持续成长能力的Agent系统提供新的实践思路。
随着技能数量和复杂度不断提升,如何理解技能为何有效以及如何持续优化成为新的研究重点。为此,微软研究院联合上海交通大学GAIR实验室提出了SkillLens与SkillOpt两项工作。SkillLens系统研究了技能从经验生成、技能萃取到技能使用的完整生命周期,揭示了技能产生正迁移与负迁移的内在机制;SkillOpt则将技能文档视为智能体的可训练外部状态,通过文本空间优化持续提升智能体表现,并展现出良好的跨模型、跨任务迁移能力。
在技能生态层面,围绕技能基础设施构建与动态评测体系的研究也在持续推进。浙江大学提出SkillNet与SkillNet-Gym,从技能组织与能力衡量两个层面展开探索。SkillNet面向大规模智能体构建技能图谱与全生命周期管理框架,实现经验向可复用能力的系统化沉淀与共享;SkillNet-Gym则构建统一benchmark,对智能体在技能构建、调用与组合等关键能力进行系统评测。两项工作共同形成从技能生态构建到技能能力评测的完整技术链条,为大模型智能体在开放环境中的持续学习与自主进化提供基础设施与评测标准。
将研究者长期积累的隐性经验转化为可复用、可传承的Skill,正在成为科研智能体发展的重要方向。香港科技大学(广州)骆昱宇老师研究团队发起的Supervisor-Skills项目,尝试将顶级学术会议发表与审稿经验沉淀为覆盖Idea评估、论文写作、科研作图与投稿检查等环节的科研Skill。同时,包括Google DeepMind提出的Science Skills在内的一系列探索,也正在推动科研经验从个体积累走向系统化沉淀与复用。
与此同时,Skill的应用边界也正在不断拓展。清华大学团队提出的MemCompiler与EmbodiSkill等工作分别从记忆/执行机制与具身智能技能学习与迁移的角度出发,探索如何在复杂环境中实现技能的高效复用与泛化,推动机器人在感知、决策与操作过程中的经验知识沉淀,为技能从数字世界延伸至物理世界提供新的技术路径。
在上述背景下,Agent Skills技术研讨会将于7月3日在2026中国AI智能体大会同期举行。
01
Agent Skills技术研讨会议程出炉
7月3日下午,本场研讨会将在大会分会场二进行,由主题报告+圆桌Panel两个环节组成。
浙江大学“百人计划研究员” 邓淑敏、美团LongCat Team主任研究员、通用Agent团队负责人顾奇、微软亚洲研究院视觉计算组资深研究工程师杨一帆、香港科技大学(广州)博士生、字节跳动筋斗云研究实习生吴垠、中科大博士生、EmbodiSkill核心作者丁鑫等技术大咖与研究人员将作为报告嘉宾带来分享。其中,研讨会及圆桌Panel将由杨一帆主持。

02
五位技术专家与研究人员将分享
报告主题和概要抢先了解

嘉宾:浙江大学“百人计划研究员” 邓淑敏
简介:邓淑敏,浙江大学“百人计划研究员”,国家级高层次青年人才,入选斯坦福全球前2% 顶尖科学家榜单(人工智能领域)。2022年博士毕业于浙江大学计算机学院,后赴新加坡国立大学计算机学院担任博士后研究员。目前涉及大模型智能体与机理、具身智能、知识图谱等自然语言处理相关的研究。担任 TASLP 副编辑、Frontiers in Big Data / Artificial Intelligence 客座编辑、多个国际顶级会议的高级领域主席(ACL 2026、EMNLP 2025/2026)及领域主席(NeurIPS 2025、ACL 2025、EMNLP 2025、CIKM 2025/2026等)、CoNLL 2023出版主席等。
主题:SkillNet:面向大模型智能体的技能图谱知识库系统
概要:本次报告围绕大模型智能体中的“技能(Skill)”展开,系统介绍从技能基础设施构建到动态能力评测的研究进展。SkillNet 提出面向大规模智能体的技能图谱与全生命周期管理框架,实现经验向可复用能力的沉淀与共享;SkillNet-Gym 则面向真实动态技能生态,构建统一 benchmark,系统评测智能体在技能构建、技能调用与技能组合等方面的能力。两项工作共同形成了从“如何建设技能生态”到“如何衡量技能智能”的完整技术链条,为推动大模型智能体向持续学习、自主进化和群体协作发展提供了基础设施与评测标准。

嘉宾:美团LongCat Team主任研究员、通用Agent团队负责人 顾奇
简介:顾奇,美团LongCat Team主任研究员,通用Agent团队负责人,LongCat系列模型的核心贡献者,LongCat-Flash-Thinking-2601模型负责人。他毕业于清华大学数学科学系,以第一作者或通讯作者在ICLR、ICML、NeurIPS、ACL等会议上发表多篇论文。此前,他曾自2024年中旬开始加入字节跳动Seed-LLM-Code团队担任专家研究员,负责Competitive Coding场景下的模型表现和RL Scaling范式的前沿探索,是Seed模型在相关领域的核心贡献者;并曾自2022年底开始加入阿里巴巴与蚂蚁集团担任研究员,作为早期创始团队成员和核心贡献者参与蚂蚁百灵大模型RLHF的基建与前沿探索。

SkillLens系统研究了模型生成技能从经验生成、技能萃取到技能使用的完整生命周期,揭示了技能何时有效、为何失效,以及负迁移产生的原因。研究发现,技能质量并不简单取决于模型规模或表面文本质量,而取决于经验组成、萃取能力和目标模型对技能的理解与执行能力。
在此基础上,SkillOpt进一步将技能文档视为冻结智能体的可训练外部状态,通过轨迹采样、成功与失败案例反思、受限的增删改编辑、验证集门控、拒绝编辑反馈,以及轮次级慢速/元更新,实现稳定、可控的文本空间优化。实验表明,SkillOpt 能在问答、表格、文档、多模态理解、数学和具身任务中显著提升智能体表现,并支持跨模型、跨执行框架和相近任务迁移。
自发布以来,SkillOpt也迅速获得社区关注:一周内获得4.6K GitHub stars、455次forks,X平台上产生2000+条相关讨论,覆盖200万以上观看用户,并被 GBrain、Darwin-skill、Tugboat、SMF Forgeweight 等多个智能体框架快速接入和适配;super-agentic.ai基于SkillOpt推出了CodexOpt产品。通过 SkillLens与SkillOpt,本报告将展示一种新的智能体适配范式:将技能作为前沿智能体时代的可学习适配层,用可解释、可验证、低成本、可迁移的方式持续提升智能体能力。

嘉宾:香港科技大学(广州)博士生、字节跳动筋斗云研究实习生 吴垠
简介:吴垠,香港科技大学(广州)一年级博士生,现为字节跳动筋斗云实习生。师从 AAAI/ACM/IEEE等机构Fellow 熊辉教授以及ACM Distinguished Scientist 汤南教授,并与骆昱宇教授保持密切合作。
在LLM应用方面,他主导的开源项目Supervised.skill目前在GitHub上已获1.2k Stars;并协助华为云搭建内部第一个高准确率的Agent Harness System, 并成功落地应用。其研究主要聚焦于如何让智能体(Agent)在企业级复杂数据环境中稳定高效地工作,以及如何构建可自我进化的人工智能系统(Self-Improving AI)。相关成果已发表于AAAI(Oral)、EMNLP等顶级学术会议。
主题:从隐性经验到 Skill:AI 时代的科研基石
概要:每个时代都有承载专业知识的载体:印刷时代是教科书,开源时代是代码库;智能体时代,Skill正在成为新的知识封装形态——它将专家的方法论与隐性经验,编码为大模型可直接调用、精确执行的能力单元。科研正是这一范式最严苛的试验场:卓越的研究依赖品味与判断力,无法仅靠一条"万能 Prompt"催生。本次报告将以开源项目 Supervisor-Skills 为例,分享如何把十年顶会发表与审稿经验"蒸馏"为覆盖Idea评估、论文写作、科研作图到投稿前自查全流程的Agent Skill;并结合近期快速兴起的科研类Skill生态(如 Google DeepMind Science Skills 等)展开讨论与展望,共同探讨一个更根本的问题:当文献调研、实验与写作逐步交给智能体,AI时代科研的"基石"将是什么——是提出好问题的品味、辨别结果真伪的判断力,还是把隐性经验沉淀为 Skill 的能力?

嘉宾:中科大博士生、EmbodiSkill核心作者 丁鑫
简介:丁鑫,中国科学技术大学信息与通信工程博士研究生,华为创新先锋、华为“2012之星”。研究方向涵盖具身智能、多模态大模型。作为第一作者在 ICCV、CVPR、ECCV、ICLR、ICML等人工智能与计算机视觉领域国际顶级会议发表十余篇论文,研究成果获 ICLR 2025 Spotlight,并被华为海思、微软等企业应用于实际业务场景。致力于推动通用人工智能技术从基础研究走向产业落地。
主题:如何让具身智能体从经验中有效学习并持续进化
概要: 本报告探讨的核心问题是:具身智能体如何才能像人一样,从经验中持续学习、持续进化?我们将看到,通过对问题的解偶,我们拆解为两件不同的事——如何在执行任务时用好已有的经验,以及如何在任务结束后从得失中真正吸取教训。这两个环节, 正是当前主流方法最容易出错的地方。 我们将通过具体的实验结果说明:当这两个问题都被认真对待,中等规模的开源模型可以在标准基准上超越 GPT-5.2、Gemini 等前沿闭源系统。这个结果本身,也许比方法更值得思考——它暗示着,AI 智能体能力的边界,或许不由模型有多大来决定。
03
更多大会精彩议题:
除了Agent Skills技术研讨会,我们还设置了Agent Harness、自进化智能体、深度研究智能体、Coding Agent、Computer-Use Agent、多智能体协同七个方向的技术研讨会和企业级AI智能体、AI智能体产品创新两个论坛。更多议程将陆续公布。
