【AI】只需一次指令微调,大模型变身全能专家天团,8B模型性能反超全微调基线|ACL25Oral

人工智能产业链union 2025-08-03 08:00
资讯配图

只需一次指令微调,即可让普通大模型变身“全能专家天团”?

资讯配图

当前预训练语言大模型(LLM)虽具备通用能力,但适应专业领域需高昂的指令微调成本;稀疏混合专家(SMoE)架构作为可扩展的性能-效率平衡框架,虽能提升推理效率并灵活扩展模型容量,但其从头训练消耗巨大资源,因此复用密集大模型参数的升级改造(LLM Upcycling)成为更具成本效益的替代方案。

资讯配图

然而现有升级方法存在两大局限:一是依赖人工经验选择可扩展的专家位置(如固定替换FFN层),忽视模型层间动态差异与任务特性;二是缺乏系统机制平衡专家专业化与协作,导致冗余或知识碎片化。

为此,来自浙江大学与Thomson Reuters的研究团队提出全新解决方案稀疏插值混合专家(SIMoE),只需单阶段指令微调,即可将普通大模型自动升级为高性能稀疏专家模型。SIMoE通过结构化稀疏优化自动发现神经元级专家参数子集,创新性地结合专家共享增量参数与掩码正交惩罚在多项基准测试中实现性能、效率的双重突破

目前相关研究论文已被ICML 2024、ACL 2025 Oral接收,代码及项目网址也已在GitHub上公开。

资讯配图
ICML2024接收
资讯配图
ACL 2025 Oral接收

传统改造为何失灵?

当前大模型升级改造方法用于大模型专业领域适配面临双重困境:

局限性一:升级改造位置依赖经验性设计,缺乏自适应机制。

现有方法在决定大模型参数中”何处升级”(where-to-upcycle)时,普遍采用启发式规则,例如固定选择FFN层或Attention模块进行升级,扩展成为SMoE模组。这种静态升级策略忽视了两个关键因素:

1、模型特异性:同一预训练大模型中不同层/参数对模型整体功能的重要性存在显著差异;
2、领域适配需求:不同领域任务会要求特定最优升级位置。

这种算法-模型-数据的脱节导致升级策略僵化,无法自适应特定任务场景,最终导致领域适配性差。如下表所示,传统经验性固定升级策略(i.e.,Learnable Upcycling)—例如升级所有FFN层—对比SIMoE的动态升级策略,其ROUGE-L分数低于SIMoE 1.6–2.5%。

资讯配图

局限性二:专家专业化与协作机制缺失

现有方法缺乏系统化机制平衡专家专业化与协同合作:

1、专业化不足:为促进知识共享,传统SMoE框架常采用固定共享专家强制协作机制。然而,此类设计会抑制领域专家的专业化能力,极端情况下甚至引发模型崩溃(model collapse)——表现为专家间参数趋同。

2、协作低效:为促进专家专业化,部分升级方法[1]采用独立微调策略——先针对不同领域数据训练多个领域专家,再通过额外训练阶段将其合并为统一SMoE模型。然而,独立训练阻碍了知识迁移,导致专家参数冗余。

专业化与协作失衡导致泛化性能次优及资源浪费。如图表所示,当前升级方法[1]相较于SIMoE存在性能与参数效率上的双重差距。

资讯配图
资讯配图

全新升级改造框架:稀疏插值专家

资讯配图

稀疏插值专家(SIMoE)在概念上类似于MoE原理,通过软合并来路由和组合特定专家参数,但在实现上与传统MoE架构不同。SIMoE将每个「插值专家」定义为共享网络中稀疏参数的特定子集

具体而言,SIMoE包括可训练的共享的专家参数集θδ(shared expert parameters)和M个可训练的独立专家掩码集资讯配图(expert masks)。在前向计算中,SIMoE(1)通过由路由网络hζ生成的加权系数α合并专家,(2)然后与冻结的预训练大型语言模型参数θpre结合。(3)在指令微调阶段,同步施加化稀疏约束(sparsity constraint)与正交惩罚(orthogonality)于可训练掩码,在优化标准NLL损失的同时自动化确定升级位置(where-to-upcycle),促进专家专业化与协同合作。

创新1:结构化稀疏升级——将专家定位转化为可学习的稀疏优化问题

面对传统LLM升级中人工选择升级层位的局限,提出一种根本性解法:将”何处升级”转化为结构化稀疏优化问题。通过在基座模型的每个线性层引入可学习二进制掩码资讯配图,构建SIMoE参数更新机制:

资讯配图

这一设计可带来三重优势:

首先,神经元级升级定位实现全局优化。通过引入L0稀疏约束构建可控优化目标:

资讯配图

其中资讯配图表示掩码的期望稀疏度,τ为目标稀疏度。该拉格朗日对偶优化框架通过动态调整λ值,驱使掩码稀疏度收敛至目标值τ,从而自动筛选基座模型中(1-τ)比例的参数进行升级改造。

其次,结构化稀疏设计攻克硬件瓶颈。当传统专家参数量级掩码资讯配图导致模型所需训练参数暴涨M倍时,提出将掩码维度压缩至输入神经元数资讯配图。这种硬件友好型稀疏产生连续内存块,直接匹配GPU存取模式,使训练峰值内存降低30%,同时维持神经元级控制粒度——这是实现8B基座模型可扩展性的关键。

最终,冻结基座与稀疏增量协同守护知识完整性。式中θpre的冻结设计确保预训练知识不受扰动,避免指令微调时的灾难性遗忘。配合75%稀疏约束τ=0.75,推理时自动剪枝零值神经元级专家,最终模型尺寸较BTX [1] 缩减66%(10.4B vs 30.58B)。

实验发现

资讯配图

创新2:专家团队内的”防内卷协议”-协作,独立的完美平衡

区别于传统SMoE,通过参数共享降低冗余正交约束保证专家专业化的协同的平衡,其数学本质是鼓励学习一组正交掩码资讯配图对共享参数进行结构化调制,使各专家在共享知识基座θδ上形成互补的专业化能力资讯配图

应用场景多适配:

小样本视觉任务:给定少量任务样本→动态训练特定任务的教师模型→通过知识蒸馏引导「插值专家」模型的组合泛化能力,训练效率提升43%

零样本指令遵循:通过对「插值专家」二进制掩码的正交约束→鼓励「插值专家」参数专业化→通过训练,达到知识共享于领域专业化的黄金平衡

资讯配图

实验验证

视觉基座模型验证:Meta-Dataset大规模视觉小样本学习基准测试。

资讯配图

SMAT(SIMoE的视觉版本)在零样本和小样本迁移场景中全面超越基线模型,OOD任务表现尤为惊艳:在零样本设置下,SMAT平均准确率达67.65%,较最佳基线提升2.8%;在小样本场景(few-shot, with gradient-based fine-tuning)中,SMAT以75.02%的准确率刷新SOTA纪录。

自然语言基座模型验证:SuperNaturalInstruction跨任务泛化能力基准测试。

资讯配图

SIMoE在跨任务泛化能力上展现统治级表现。在12类未见任务中,SIMoE在9类任务上显著领先:3B模型较全微调基线提升2.5%,8B模型提升1.6%。

自然语言基座模型验证:Tulu-v3 SFT Mixture多领域泛化能力基准测。

资讯配图

SIMoE在大规模场景仍保持性能统治力。面对8B参数基座模型和百万级指令数据,SIMoE在MMLU、GSM8K等12项核心基准平均得分61.1%,以0.6%优势超越当前SOTA模型Tülu-v3-8B-SFT,在指令遵循(IFEval +1.3%)和安全测试(Safety +1.7%)等任务中展现明显优势。

引用文献:

[1] Sainbayar Sukhbaatar, et al. “Branch-train-mix: Mixing expert LLMs into a mixture-of-experts LLM”. In First Conference on Language Modeling.

论文链接:

ICML 2024:https://arxiv.org/abs/2403.08477

ACL 2025:https://arxiv.org/pdf/2506.12597

项目链接:

https://szc12153.github.io/sparse_meta_tuning/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

 

☟☟☟

☞人工智能产业链联盟筹备组征集公告☜

 

 


精选报告推荐:

11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:


【清华第一版】DeepSeek从入门到精通

【清华第二版】DeepSeek如何赋能职场应用?


【清华第三版】普通人如何抓住DeepSeek红利?

【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?

【清华第五版】DeepSeek与AI幻觉

【清华第六版】DeepSeek赋能家庭教育

【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力

【清华第八版】DeepSeek政务场景应用与解决方案

【清华第九版】迈向未来的AI教学实验

【清华第十版】DeepSeek赋能品牌传播与营销

【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南

 10份北京大学的DeepSeek教程

【北京大学第一版】DeepSeek与AIGC应用

【北京大学第二版】DeepSeek提示词工程和落地场景

【北京大学第三版】Deepseek 私有化部署和一体机

【北京大学第四版】DeepSeek原理与落地应用

【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施

【北京大学第六版】DeepSeek与新媒体运营

【北京大学第七版】DeepSeek原理与教育场景应用报告

【北京大学第八版】AI工具深度测评与选型指南

【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望

【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)

8份浙江大学的DeepSeek专题系列教程

浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育

浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景

浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态

浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读

浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅

浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧

浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原

浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来

4份51CTO的《DeepSeek入门宝典》

51CTO:《DeepSeek入门宝典》:第1册-技术解析篇

51CTO:《DeepSeek入门宝典》:第2册-开发实战篇

51CTO:《DeepSeek入门宝典》:第3册-行业应用篇

51CTO:《DeepSeek入门宝典》:第4册-个人使用篇

5份厦门大学的DeepSeek教程

【厦门大学第一版】DeepSeek大模型概念、技术与应用实践

【厦门大学第二版】DeepSeek大模型赋能高校教学和科研

【厦门大学第三版】DeepSeek大模型及其企业应用实践

【厦门大学第四版】DeepSeek大模型赋能政府数字化转型

【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇

10份浙江大学的DeepSeek公开课第二季专题系列教程

【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)

【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)

【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)

【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)

【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)

【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)

【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)

【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)

【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)

【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)

6份浙江大学的DeepSeek公开课第三季专题系列教程

【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)

【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)

【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)

【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能赋能交通运输系统——关键技术与应用(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能与道德进步(附PDF下载)

 

相关阅读

干货推荐:
AI加油站】第一部:《大型语言模型应用检索增强生成:改变搜索、推荐和 AI 助手》附下载
【AI加油站】第二部:《程序员的自我修炼手册》(附下载)
【AI加油站】第三部:《大规模语言模型:从理论到实践》(附下载)
【AI加油站】第四部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第五部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第六部:《时间序列:建模、计算与推断》(附下载)
【AI加油站】第七部:《因果关系的逻辑理论的好书-A Logical Theory of Causality》(附下载)

【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)

【AI加油站】第九部:《Python深度学习(中文版)》(附下载)
【AI加油站】第十部:《机器学习方法》(附下载)
【AI加油站】第十一部:《深度学习》(附下载)
【AI加油站】第十二部:《从零开始的机器学习》(附下载)
【AI加油站】第十三部:《Transformer入门到精通》(附下载)
【AI加油站】第十四部:《LLM 应用开发实践笔记》(附下载)
【AI加油站】第十五部:《大模型基础 完整版》(附下载)
【AI加油站】第十六部:《从头训练大模型最佳实践》(附下载)
【AI加油站】第十七部:《大语言模型》(附下载)
【AI加油站】第十八部:《深度强化学习》(附下载)
【AI加油站】第十九部:清华大学《大模型技术》(附下载)
【AI加油站】第二十部:Prompt入门神书-《Prompt 学习指南》(附下载)
【AI加油站】第二十一部:吴恩达&open AI联合推出《大模型通关指南》(附下载)
【AI加油站】第二十二部:《李宏毅深度学习教程》值得反复阅读的神书!(附下载)
【AI加油站】第二十三部:Prompt经典中文教程-《提示工程指南》(附下载)
【AI加油站】第二十四部:爆火下载28万次!MIT最新神书《理解深度学习》(附下载)
【AI加油站】第二十五部:LLM4大名著,OpenAI专家强推《深度解析:大语言模型理论与实践》(附下载)
【AI加油站】第二十六部:NLP大牛Thomas Wolf等新书《Transformer自然语言处理》(附下载)
【AI加油站】第二十七部:哈工大博士耗时一年整理《PyTorch常用函数手册》,轻松掌握PyTorch的各种操作(附PDF下载)
【AI加油站】第二十八部:大模型炼丹大师必备《深度学习调优指南中文版-系统性优化模型》(附下载)
【AI加油站】第二十九部:炸裂发布!《大语言模型:导论》重磅发布!(附下载)
【AI加油站】第三十部:最值得读的LLM书!下载量10w+!《基于Transformer和扩散模型的生成式AI》(附下载)
【AI加油站】第三十一部:RL稀缺宝典!《强化学习的艺术》(附下载)
【AI加油站】第三十二部:一本醍醐灌顶的教科书!《大语言模型提示工程:构建LLM应用的艺术与科学》(附下载)
【AI加油站】第三十三部:机器学习好评榜第一《机器学习基础》(附下载)
【AI加油站】第三十四部:所有大模型领域学习者必读,没有之一!由深度学习三巨头联合撰写!(附下载)
【AI加油站】第三十五部:{AI炼丹神书}——从0到1榨干深度学习模型每一滴性能的终极战术手册《深度学习调优指南》(附下载)
【AI加油站】第三十六部:面向生产环境的大型语言模型实战手册《LLM 大语言模型构建指南》(附下载)
【AI加油站】第三十七部:《深度学习的数学导论:方法、实现与理论》从神经网络架构到物理信息模型的全景综述(附下载)
面试推荐:
【AI加油站】AI面试专题一:BIO,NIO,AIO,Netty面试题(附下载)
【AI加油站】AI面试专题二:Git常用命令面试题(附下载)
【AI加油站】AI面试专题三:Java常用面试题(附下载)
【AI加油站】AI面试专题四:Linux系统的面试题集(附下载)
【AI加油站】AI面试专题五:Memcached 面试题集(附下载)
【AI加油站】AI面试专题六:MyBatis框架的面试题(附下载)
【AI加油站】AI面试专题七:MySQL相关的面试题资料(附下载)
【AI加油站】AI面试专题八:Netty面试题资料(附下载)
【AI加油站】AI面试专题九:Nginx的面试题资料(附下载)
【AI加油站】AI面试专题十:RabbitMQ的面试题资料(附下载)
【AI加油站】AI面试专题十一:Redis的面试题资料(附PDF下载)
【AI加油站】AI面试专题十二:Spring的面试题资料(附PDF下载)
【AI加油站】AI面试专题十三:Apache Tomcat的面试题资料(附PDF下载)
【AI加油站】AI面试专题十四:Zookeeper的面试题资料(附PDF下载)
【AI加油站】AI面试专题十五:《阿里巴巴Java开发手册》终极版的面试题资料(附PDF下载)
【AI加油站】AI面试专题十六:大数据技术面试题资料(附PDF下载)
【AI加油站】AI面试专题十七:Java并发多线程面试题资料(附PDF下载)
【AI加油站】AI面试专题十八:设计模式的面试题资料(附PDF下载)
【AI加油站】AI面试专题十九:Java虚拟机(JVM)的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十:Elasticsearch的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十一:TCP UDP Socket Http网络编程的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十二:消息队列Kafka的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十三:Spring Boot的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十四:Spring Cloud的面试题资料(附PDF下载)
【AI加油站】AI面试专题二十五:Dubbo的面试题资料(附PDF下载)

人工智能产业链联盟高端社区




资讯配图
精选主题推荐:
Manus学习手册
从零开始了解Manus

DeepSeek 高级使用指南,建议收藏

一次性说清楚DeepSeek,史上最全(建议收藏)

DeepSeek一分钟做一份PPT

用DeepSeek写爆款文章?自媒体人必看指南

【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!

DeepSeek接入个人微信!24小时智能助理,随时召唤!
PS×Deepseek:一句话编写PS脚本,搞定PS批量导出图层
如何让AI给自己打工,10分钟创作一条爆款视频?
荐:
【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕!
【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

资讯配图
声明

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)

编辑:Zero

资讯配图


资讯配图
资讯配图

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
7步解锁大模型!被传疯的 AI Agent 实操指南
嵌入式“风向标”再启幕!聚焦AIoT、人形机器人硬科技
Claude Opus 4.1被曝即将发布!Anthropic靠两大客户API收入超OpenAI
AI将消灭中产阶级!前谷歌高管惊人预警:未来只剩金字塔尖0.1%和底层
电商上演「魔法对轰」:卖家用AI假图骗下单,买家拿AI烂水果骗退款
楚庆领军的AI公司,迎来新突破
美光推出三款AI专用SSD,加速AI革命进程
【报告】AI眼镜专题三:AI智能眼镜核心应用场景的实践及展望(附PDF下载)
【机器人】WAIC最“火爆”的展区,“浦东人形机器人”战队捷报频传
埃默里大学的科学家让 AI 去发现新物理定律,结果成功了!
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号