垂直领域大模型的定制化：理论基础与关键技术

随着 ChatGPT 等基于大模型的产品展现出强大的通用性能，学术界和工业界正积极探索如何将这些模型适配到特定行业和应用场景中，即进行垂直领域大模型的定制化。然而，现有的通用大模型可能无法完全适配特定领域数据的格式，或不足以捕捉该领域的独特需求。因此，本文旨在探讨垂直领域大模型定制化的方法论，包括大模型的定义和类别、通用架构的描述、大模型有效性背后的理论基础，以及几种可行的垂直领域大模型构建方法，期望通过这些内容为相关领域的研究者和从业者在垂直领域大模型定制化方面提供指导和参考。

ChatGPT 以其卓越的通用性能重塑了人们对人工智能的理解。作为 ChatGPT 的核心，大语言模型（Large language model）已经成为众多领域研究人员和专业人士改进工作流程的重要工具。通用大模型通常在广泛的公开数据集上进行训练，这使得它们能够学习并解决各种常见问题，但这些数据集无法完全覆盖某些特定领域的所有专业知识和技术细节，这导致尽管通用大模型具备广泛的通用知识，却缺乏足够的知识深度来满足某些特定领域的复杂需求。因此，针对特定行业的需求来构建垂直领域大模型变得尤为重要。垂直领域大模型，或称垂类大模型、行业大模型，是针对特定领域的数据和应用而开发的大模型［1］。与通用大模型相比，它们在训练过程中会使用大量特定领域的数据，从而能够更准确地理解和生成与该领域相关的专业内容。随着类 ChatGPT 的产品和神经网络模型的接连推出，“大模型”概念的范围也在逐步扩张［2‑4］。鉴于相关概念繁杂，为了确定本文的研究共识，需要对“大模型”概念进行定义并阐述其特点，从而奠定后文对垂直领域大模型定制化的叙述基础。本文所提及的大模型（Foundation model），是在多模态大模型（Multimodal large model）五模块框架（下文将详细介绍该框架）中，包含了能够实现其中一个或多个模块功能的神经网络模型，且该模型符合以下特点：（1）大数据。使用覆盖了多种场景的大量数据进行模型的训练，为模型提供充足的知识。（2）大参数。模型的参数量达到一定规模，足以将大量数据中隐含的知识固化到模型参数中。（3）通用性。模型的输入数据格式和数据处理流程能够适配多种任务场景下的输入格式和需求。（4）泛化性。模型拥有一定的泛化性，使其在未知数据域中依然具有良好性能。根据大模型可处理的模态数量，可将大模型分为单模态大模型和多模态大模型：（1）单模态大模型。VGG［5］，ResNet［6］，GPT‑1 ［7］，GPT‑2 ［8］，GPT‑3 ［9］，GPT‑3.5 turbo［10］，BERT［11］， GLM［12‑13］，LLaMA［14］，LLaMA‑2 ［15］，iGPT［16］，LVM［17］，BART［18］和 T5 ［19］。（2）多模态大模型。 CoDi［20］，CoDi ‑ 2 ［21］，Claude ‑ 3 ［22］，GPT ‑ 4 ［23］，LLaVA［24］，BriVL［25］，Image‑ Bind［26］和 NExT‑GPT［27］。在构建垂直领域大模型的过程中将面临一系列挑战，尤其是在数据获取和预处理阶段。比如，其需要处理的垂直领域数据并不开源或难以获取，具有私密性；或是数据模态与通用大模型使用的中心模态不同，导致无法迁移现成的大模型处理该数据；又或是垂直领域数据与预训练模型的数据域有所不同，需要向预训练模型输入专业领域知识。垂直领域大模型应用方式灵活，涉及的应用领域繁杂，构建难度大、开销大，涉及的技术安全问题至关重要，期望产生的经济效益高［28‑30］，因此有必要对其构建方法论进行深入探索和全面梳理，并总结出相应的方法论。以往的综述文献都更多地关注大模型本身的发展［2‑4，31‑36］，但对于垂直领域大模型的定制化方法论方面缺乏详细的讨论。本文通过介绍垂直领域大模型定制的理论基础、垂直领域大模型的定制方法、垂直领域大模型的应用实例，以及垂直领域大模型定制化的未来发展方向，为有意构建垂直领域大模型应用的研究者及工作者提供模型定制方法论层面的参考。

成为VIP会员查看完整内容

101

相关内容

ChatGPT

关注 257

ChatGPT（全名：Chat Generative Pre-trained Transformer），美国OpenAI 研发的聊天机器人程序 [1] ，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文任务。 [1] https://openai.com/blog/chatgpt/

数据与多模态大型语言模型的协同作用综述

专知会员服务

57+阅读 · 2024年7月13日

大型语言模型的知识蒸馏综述：方法、评估与应用

专知会员服务

77+阅读 · 2024年7月4日

《多模态3D场景理解》最新综述

专知会员服务

191+阅读 · 2023年10月28日

大模型在图上怎么做？北邮等最新《图基础模型》综述，详述GFMs关键技术

专知会员服务

60+阅读 · 2023年10月19日