大型语言模型(Large Language Models, LLMs)在诸多领域与应用中取得了显著进展,但仍面临高昂的微调成本、推理延迟、边缘部署受限以及可靠性等问题。相比之下,小型语言模型(Small Language Models, SLMs)具有结构紧凑、高效灵活等优势,为上述问题提供了互补的解决思路。近期研究开始探索大小语言模型协作框架(SLM–LLM collaboration frameworks),旨在融合SLMs的专长与高效性,以及LLMs的泛化与推理能力,从而在不同任务与部署场景下实现多样化目标。 受此趋势启发,本文围绕协作目标对SLM–LLM协作进行了系统性综述。我们提出了一个以四类目标为核心的分类体系:性能提升、成本效益、云边隐私与可信性。在此框架下,本文回顾了具有代表性的研究方法,总结了主要设计范式,并探讨了面向高效、安全与可扩展的SLM–LLM协作的开放挑战与未来发展方向。
1 引言
大型语言模型(Large Language Models, LLMs)凭借其庞大的参数规模,已深刻变革了多个领域,包括科学智能(AI for Science)(Luo et al., 2022; Al-Lawati et al., 2025; Wang et al., 2024a)、程序生成与代码智能(Shi et al., 2024),以及以人为中心的人机交互(Zhang et al., 2024c)等。然而,这种大规模特性同时带来了若干挑战:(1)微调成本高昂,导致模型难以高效适应新任务(Thawakar et al., 2025; Liu et al., 2024b);(2)模型规模庞大,引发推理延迟,限制了实时应用(Leviathan et al., 2023; Kwon et al., 2023);(3)边缘设备算力受限,如手机、个人电脑和小型服务器等通常无法部署LLMs,而基于云端的推理又带来了隐私与成本问题(Carlini et al., 2021; Xu et al., 2024b);(4)LLMs存在固有的可靠性风险,包括幻觉生成与越狱攻击等脆弱性(Yao et al., 2024; Farquhar et al., 2024)。 这些问题凸显了对可定制、具成本效益、可边缘部署且可信赖的AI解决方案的迫切需求。 相较之下,小型语言模型(Small Language Models, SLMs)因其结构紧凑、计算成本低且适应性强,成为应对上述问题的有力补充方案。尽管SLMs在通用推理与知识覆盖方面不及LLMs,但通过融合SLMs与LLMs的互补优势,有望构建出高效、可扩展且可靠的智能系统。 研究者提出了多种SLM–LLM协作(collaboration)方法,利用SLMs在定制化、高效性和本地部署方面的优势,结合LLMs在泛化与推理上的强大能力(Xu et al., 2024a; Chen et al., 2024; Wang et al., 2025b)。尽管该方向已取得显著进展,但目前尚缺乏一项系统性综述以协作目标为主线展开的研究。现有工作主要聚焦于四类核心目标: 1. 性能提升(Performance):将特定领域的SLMs与通用LLMs结合,以提升在专业与通用任务上的整体性能; 1. 成本效益(Cost-effectiveness):通过SLMs进行轻量级处理,并在必要时调用LLMs,从而降低计算与API调用成本; 1. 云边隐私(Cloud–edge Privacy):利用设备端SLMs处理隐私数据,而云端LLMs提供更广泛的推理支持,以平衡效率与隐私; 1. 可信性(Trustworthiness):将SLMs作为安全策略编码器,引导LLMs生成更安全、可靠的输出。
本文首次围绕性能、成本效益、云边隐私与可信性四大目标,对SLM–LLM协作进行全面综述。我们提出了系统的协作目标分类体系(taxonomy),总结了具有代表性的研究方法(详见附录表1),并展望了未来的研究方向。 与现有综述的差异
已有综述在LLM时代探讨了SLM的发展。例如,Wang et al. (2024b, 2025a)对SLM的设计、应用及可靠性进行了广泛概述,但仅简要提及协作问题;Lu et al. (2024)、Van Nguyen et al. (2024)与Xu et al. (2024b)则分析了SLM的优势、架构与部署,但对协作机制的讨论较为有限。另一方面,现有的协作综述(如Chen and Varoquaux, 2024; Niu et al., 2025; Li et al., 2025b)主要聚焦于单向或云–边协作场景,而未涵盖更广泛的协作目标。 为填补这一空白,本文从协作目标出发,对SLM–LLM协作进行系统性回顾,旨在提供关键洞见,以指导未来研究与实践。