
> 本文来自社区投稿
导读
领域任务不只是缺一个更大的模型。
在金融风控、医疗、企业知识库、城市智能和个人设备等场景中,系统既需要大模型的通用知识与推理能力,也需要小模型贴近本地数据、业务流程和部署资源。但两类能力不能简单合并:私域数据受隐私和合规约束,不能直接提供给外部模型服务;GPT 等商业大模型通常只能通过受限接口调用,无法部署到本地;端侧设备也难以承担大模型的计算和存储成本。
那么,在不能跨越信任边界时,大模型和小模型如何通过受控信息交换协作完成领域任务?换言之,什么信息可以跨过边界、以什么形式跨过边界,又会带来哪些收益、风险和成本?

论文标题:Towards Harnessing the Collaborative Power of Large and Small Models for Domain Tasks
论文链接:https://arxiv.org/abs/2504.17421
项目主页:https://github.com/KejiaZhang-Robust/Awesome-LM-SM-Domain-Collaboration
作者:Yang Liu, Kejia Zhang, Bingjie Yan, Tianyuan Zou, Jianqing Zhang, Zixuan Gu, Xiangsen Chen, Jianbing Ding, Xidong Wang, Jingyi Li, Xiaozhou Ye, Ye Ouyang, Qiang Yang, Ya-Qin Zhang
作者单位:香港理工大学、清华大学、上海交通大学、亚信科技
1. 为什么协作必须跨越信任边界?
私域任务中的矛盾在于,单独依赖大模型或小模型都不充分。
远程调用大模型可以获得强能力,但需要提交任务上下文和数据,带来隐私和合规风险;本地部署大模型又受到模型产权、算力和成本限制。小模型便于本地运行和领域适配,却通常缺少通用知识和复杂推理能力。
为了解决这一问题,论文将大模型-小模型协作定义为信任边界下的受控信息交换:不集中原始数据,不开放商业模型内部能力,而是让必要信息以合适形式跨边界传递。
本文据此梳理相关协作范式,并围绕边界、载体、协作方式、风险和成本展开。

前述矛盾可拆成三类信任边界。这些约束说明,协作难点不只是模型能力,而是信息能否在保留各方控制权的前提下流动。
数据隐私:原始私域数据不能直接提供给外部模型服务,也要避免样本内容或分布信息泄露。 模型参数与能力保护:GPT 等商业大模型通常只开放受限接口,不开放参数、内部状态或可被复用的行为信号。 资源约束:本地设备难以承担大模型的完整部署、推理或微调成本。
因此,跨信任边界不是取消边界,而是在边界存在时设计可审计、可限制的信息交换方式。
2. 论文的关键视角:跨边界载体
明确边界后,关键是识别什么信息跨过边界。论文把这些跨界信息称为载体(carrier)。

student model / compact proxy:学生模型或紧凑代理,用于把大模型能力转移到本地小模型。 logits / representations:输出分布或中间表征,可作为蒸馏监督、领域信号或推理融合依据。 synthetic data:合成数据,由一侧模型生成,用于训练或适配另一侧模型。 compressed weights / adapters:压缩权重或适配器,把参数知识以更小模块复用。 adapters / tunable prompts:适配器或可训练提示,用于把私域知识写入可控参数或输入接口。 intermediate outputs:拆分学习中的中间输出,用于在不同信任域之间分担模型计算。 tokens:协同解码中交换的生成片段,用于草稿、验证或同步生成状态。 prompts / outputs:上下文增强协作中的提示和结果,可包括 queries、retrieved evidence、tool outputs、summaries、critiques 或 decisions。
因此,先说明载体,才能判断它的任务收益、数据风险、能力暴露和资源开销。
3. 三类协作范式
论文进一步按信息流方向组织协作范式。下图中的 Table 1 不是简单列方法,而是把每种方法绑定到信息流方向、可训练参数和跨边界载体。前两类主要发生在训练或适配阶段;第三类发生在推理阶段,需要两类模型持续交互。


1. 大模型到小模型迁移(LM -> SM Transfer):大模型向小模型传递通用知识,使小模型能在本地适配和执行领域任务。
蒸馏式迁移(Distillation-based Transfer)中,大模型在公共或可共享样本上提供监督,使小模型学习其输出行为或中间语义;载体是 student model / compact proxy、logits 或 representations。 生成式迁移(Generation-based Transfer)中,大模型生成训练样本、标注或任务情境,供本地小模型训练或持续适配;载体是 synthetic data。 参数式迁移(Parameter-based Transfer)则从大模型提取或压缩可复用参数,降低本地训练和部署成本;载体是 compressed weights / adapters。
2. 小模型到大模型迁移(SM -> LM Transfer):私域侧把本地知识编码成受控载体,帮助大模型适配领域任务。
蒸馏式迁移中,私域小模型在公共锚点样本上提供领域监督,让大模型学习私域侧的判断边界;载体是 logits / representations。 生成式迁移中,私域侧生成代理数据或紧凑任务样本,帮助大模型获得领域分布线索,同时避免直接暴露原始数据;载体是 synthetic data。 参数式迁移则把私域知识写入轻量参数或输入控制接口,作用于冻结或部分开放的大模型;载体是 adapters / tunable prompts。
3. 推理阶段协作(Inference-Time Collaboration):两类模型在任务执行时交换中间信息,而不是训练后各自独立运行。
拆分学习(Split Learning)把模型或任务链拆到不同信任域执行,双方交换分层计算结果并共同完成预测;载体是 intermediate outputs,训练时还可能返回 gradients,推理时返回 task outputs。 协同解码(Collaborative Decoding)让两类模型共同参与生成过程,例如小模型起草、大模型验证,或在解码阶段融合分布;载体是 logits / tokens。 上下文增强协作(Context-Augmented Collaboration)则由本地系统负责检索、工具调用、摘要或审核,将必要上下文交给大模型推理,再接收结果用于本地决策;载体是 prompts / outputs。
因此,Table 1 不只是方法列表,而是说明信息从哪一侧流向哪一侧,跨边界载体是什么,以及它对应怎样的访问条件、风险和成本。
4. 挑战如何被形式化:攻击、防御与效率约束
明确载体后,风险和成本也能落到具体对象上。论文将挑战概括为三类风险和一类开销。
数据风险:载体可能泄露样本内容、成员关系、提示内容或私域分布。 模型风险:高频或高信息量交互可能暴露模型能力,增加抽取风险。 完整性风险:载体可能被投毒、篡改或注入,影响协作结果。 资源开销:不同载体对应不同通信、端侧计算和远程查询成本。
因此,防御策略需要说明保护哪类载体,以及代价由谁承担。



5. 协作三难问题
论文将这些约束总结为协作三难:任务效用、隐私/安全/完整性和资源效率难以同时最优。
充分交换:可能提升效果,也会增加泄露、抽取或投毒风险。 严格保护:可以降低风险,但可能削弱可用信号。 降低开销:有利于部署,但会限制协作深度。
因此,私域协作需要在收益、风险和效率之间做可解释的取舍。
6. 未来方向
论文最后给出四类后续方向,核心仍是让协作策略在真实边界内可评测、可部署、可持续更新。
多目标评测:同时评估任务效果、隐私/安全/完整性和资源效率,避免只看单一准确率。 标准化接口与预算感知协议:为 logits、tokens、intermediate outputs 等非文本载体设计安全交换接口,并把调用频率、信息粒度和保护策略纳入协议。 真实场景示范:在城市智能、企业智能和个性化智能中验证协作系统,而不是只在公开基准上比较方法。 持续适应:当任务、数据分布、模型能力和本地资源变化时,动态更新载体选择和协作策略。
这些方向说明,LM-SM 协作不是单个算法问题,而是评测、协议、应用和长期维护共同决定的系统问题。
总结
总体来看,这篇综述把大模型-小模型协作从“模型压缩或省成本”推进到“跨信任边界的信息交换”问题。它给出一个工程检查表:先说明边界在哪里,再说明什么载体跨界,最后分析对应的协作方式、风险和成本。
对私域任务而言,真正重要的问题不是简单选择“大模型还是小模型”,而是让两者在边界内各自保留控制权,并通过可审计、可限制、可评估的载体完成协作。
-- 完 --
机智流推荐阅读:
1.
2.
3.
4.
cc | 大模型技术交流群 hf | HuggingFace 高赞论文分享群 lc|LangChain 技术交流群 code | AI Coding 交流群 具身 | 具身智能交流群 硬件 | AI 硬件交流群 推理 | AI 推理框架交流群 智能体 | Agent 技术交流群