近年来,大语言模型(LLMs)显著推动了法律人工智能(Legal AI)的发展,提升了法律任务的效率与准确性。为了进一步推进基于LLM的方法在法律领域的研究与应用,本文对 16 个法律领域LLM系列 和 47 个基于LLM的法律任务框架 进行了全面综述,并汇总了 15 个基准测试 与 29 个数据集,用于评估不同的法律能力。此外,我们还分析了面临的挑战,并探讨了基于LLM的法律方法在未来的发展方向。我们希望本文能够为初学者提供系统性的入门介绍,并激发该领域的后续研究。相关资源可在 https://github.com/ZhitianHou/LLMs4LegalAI 获取。
法律人工智能(Legal AI)主要关注利用人工智能方法来支持各类法律任务,例如 法律判决预测(Feng et al., 2022)、法律案例检索(Feng et al., 2024)以及 法律文书摘要生成(Shukla et al., 2022)。Legal AI 在法律领域具有重要影响,它不仅能减轻法律专业人士在重复性和高强度任务中的负担,还能为缺乏法律专业知识的个体提供可靠指导,从而成为一种可负担的法律辅助形式(Zhong et al., 2020a)。 随着大语言模型(LLMs)在多个领域取得显著成功(Zan et al., 2023; Hu et al., 2024; Kim et al., 2024b; Tan et al., 2024),LLMs 已日益广泛地应用于法律领域,用以解决多样化的法律任务(Wu et al., 2023b; Deng et al., 2024a; Godbole et al., 2024)。如图 1 所示,LLMs 在法律领域的应用主要包括两类:其一是通过微调训练得到新的 法律专用 LLMs;其二是基于 LLM 的框架(即直接利用现有 LLM 而无需微调),用于应对传统法律任务。此外,研究者还开发了用于训练和评估 LLM 的法律数据集。尽管基于 LLM 的方法在法律领域已展现出令人瞩目的性能,但目前仍缺乏对相关研究的系统性综述与分析。为填补这一空白,本文对法律领域中 LLM 的研究进行了深入探讨,重点涵盖现有数据集、先进方法、面临的挑战及未来发展方向。 本文的主要贡献如下: * 全面综述:据我们所知,这是首个系统性回顾法律人工智能数据集(包括传统数据集与 LLM 专用数据集)以及基于 LLM 的方法(包括法律专用 LLMs 与 LLM 框架)的工作。 * 数据集分析:我们对现有的 Legal AI 数据集进行了深入分析,全面概述了其特征与特点。 * 精细化分类体系:我们提出了一套细致的分类方法,将法律专用 LLMs 与基于 LLM 的框架加以区分,并根据其所处理的任务对框架进一步进行归类。 * 挑战与未来方向:我们总结了当前基于 LLM 的法律应用所面临的挑战,并提出了未来研究的建议。
综述结构 如图 2 所示,本文的结构安排如下:首先介绍数据集与评价指标(§2);接着讨论先进的法律专用 LLMs 与基于 LLM 的框架相关研究(§3);随后分析所面临的挑战(§4);最后展望未来的研究方向(§5)。