CCL“中国法研杯”相似案例匹配评测竞赛 - TOP队伍攻略分享

2019 年 10 月 30 日 AINLP

上周末参加了在云南昆明举办的“第十八届中国计算语言学大会”（The Eighteenth China National Conference on Computational Linguistics, CCL 2019）。CCL作为国内最好的NLP会议之一，笔者收获满满，感触颇深。于是写下这篇文章，和大家分享之所见所闻。

中国计算语言学大会作为国内自然语言处理领域权威性最高、规模和影响最大的学术会，聚焦于中国境内各类语言的智能计算和信息处理，为研讨和传播计算语言学最新学术和技术成果提供了最广泛的高层次交流平台。

笔者主要参加了CCL会议中的评测研讨会，我们队伍（何从庆、朱翔宇(DOTA)、乐雨泉）在CCL“中国法研杯”相似案例匹配评测竞赛取得了三等奖。

欢迎关注【AI算法之心】公众号，后台回复"CAIL2019"，可下载相关比赛数据。

作者：何从庆、朱翔宇(DOTA)、乐雨泉

知乎链接：

https://zhuanlan.zhihu.com/p/88207736

代码链接：

https://github.com/hecongqing/CAIL2019

比赛简介

CCL“中国法研杯”相似案例匹配评测竞赛主要是针对多篇法律文本进行相似度的计算和判断。具体地，对于每份文书提供文本的标题以及事实描述，需要从两篇候选集文书中找到与询问文书更为相似的一篇文书。

一般地，三元组相似任务：三元组相似任务是输入一个三元组<a, p ,n >，a表示anchor sample；p表示positive sample，与a是同一类样本；n表示negative sample，与a是不同类别的样本。代表网络有Triplet Network。

二元组相似任务：二元组相似任务是输入一个二元组<X,Y>,判断X与Y是否为同一类样本。代表网络有Siamese network，ESIM，InferSent。

数据集介绍

本任务使用的数据集是来自“中国裁判文书网”公开的法律文本，其中每份数据由三篇法律文本组成。数据总共涉及一万组文书三元对，所有的文书三元组对都一定属于民间借贷案由。对于每篇法律文本，提供该文书的事实描述部分。具体地，文件的每一行对应一组数据，且每行的格式都为一个json数据。

对于每份数据，用(A,B,C)来代表改组数据，其中(A,B,C)均对应某一篇文书。在训练数据中，文书数据A与B的相似度是大于A与C的相似度，即sim(A,B)>sim(A,C)。

任务转化

很明显，这是一个三元组相似任务，即A表示anchor sample, B表示positive sample，C表示negative sample。因此直接可以使用Triplet Network的结构去尝试。但是，在任务中，训练集仅有5000样本，训练集很少；同时，句子长度很长。因此，我们将其转化为二元组相似任务。即假设sim(A,B)>sim(A,C)，A与B相似度的标签为1，A与C相似度的标签为0。

难点痛点

1) 法律文本本身在一定程度上具有结构相似性，且事实描述部分存在很多通用词语，如何对法律文本进行预处理是非常重要，这里我没有详细说明如何对法律文本进行预测。

2) 法律文本长度很长，使得任务变得更难处理。机器很难解析一篇很长的事实描述，语义表征也是很复杂。这是法律文本不同于传统的NLP任务之一。

模型方案

本次比赛，各个队伍大放光彩，使用的方法也是各有千秋。常用的优化方法主要分为以下几种方法：

一种是在encoder部分对于案件文档进行编码优化，如BERT，CNN，attention等，前几名基本都是使用了这几种方法。还有的是，对于案件之间的交互进行优化，如对pair案件计算余弦相似度(Ref [1]);计算句子之间的向量差，点集等(Ref [2])。

还有的是对损失函数进行优化，如使用triplet loss，margin loss等。同时，还有队伍针对三元组相似问题，进行数据增强。由于训练集sim(A,B)>sim(A,C)，即(A,B,C)=1，可以这样数据增强，如(C,C,A)=0，(B,A,C)=0等，这样变换进行数据增强。最有创新的当属于第一名，他们采用了要素提取方法，由于案件均为民间借贷，引入民间借贷纠纷中重要的法律构成要件信息，帮助模型判断。

二元组相似任务现有的方案很多，如Siamese network，ESIM，InferSent。我们队伍主要结合最新的BERT模型来改进encoder部分，然后用Siamese network以及InferSent来计算向量的相似度。

1) Siamese network

简单来说，Siamese network就是“连体的神经网络”，神经网络的“连体”是通过共享权值来实现的。如下图所示，通过两层的双向LSTM作为encoder，左右两边的encoder通过共享权值，然后通过余弦相似度衡量两个Sentence的相似情况。

在本次任务中，训练集较少，很难训练出一个泛化能力强的模型，那么是否可以结合BERT、XLNET等网络作为encoder，来fine tune网络呢？因此我们尝试了BERT作为encoder,然后余弦相似度计算相似性。线上分数可以达到63.93左右的acc。效果不是很理想，我们觉得法律文本很长，且存在着很多通用相似词语，直接通过余弦相似度计算是否相似，并不是很有效的评估两篇文书的相似度。

2) InferSent

Facebook提出了一种InferSent相似度模型，论文中通过不同的encoder得到句子的表征，然后通过两个句子的向量差值，以及两个向量点乘，得到交互向量，最后区分两者的不同。同样地，这里我们也使用BERT作为encoder，然后通过pooling，然后计算Sent A和Sent B的|u-v|以及u*v，得到两者的交互向量，线上分数可以达到64.5左右的acc。这个比计算余弦相似度的效果好，这说明长度文本利用InferSent模型可以更好的计算两者的向量相似程度。

这里和Digsci比赛的思路也是比较相似，大家也可以看看这篇文章：

DigSci科学数据挖掘大赛-亚军方案分享

https://zhuanlan.zhihu.com/p/88257675

3) 原始BERT模型

原始的BERT模型同样可以解决相似度匹配任务，同样地，我们在原始的BERT模型上也可以取得不错的成绩。这里就不详细说了。

最后，我们用几个模型做加权融合，然后取得了线上第七的成绩。由于时间工作原因，没有更深度的挖掘法律案情的细节信息。

写在最后

法律领域作为NLP应用最为成功的领域之一，已在学术上和工业上产生了非常巨大的影响。近年来，也有不少paper和工业产品落地实施。这些paper抑或产品均旨在通过AI技术来解决法官判案难、群众查案难等问题。

笔者研究法律智能领域已经两年多了，法律领域不仅仅是简单的NLP问题，比如之前提到的，法律文本本身在一定程度上具有结构相似性，如何挖掘法律文本结构等。其实可以结合法律文本本身的性质来理解，或许能更好的解决法律领域的相关问题。

参考文献

[1] Learning Text Similarity with Siamese Recurrent Networks

[2] Supervised learning of universal sentence representations from natural language inference data

[3] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

本文转载自公众号：AI算法之心，作者：何从庆

推荐阅读

DigSci科学数据挖掘大赛：如何在3天内拿下DigSci亚军

法研杯要素识别第二名方案总结：多标签分类实践与效果对比

2019法研杯比赛--阅读理解任务第4名团队参赛总结

法研杯cail2019阅读理解比赛记录（第5名团队分享）

【PySpark入门】手把手实现PySpark机器学习项目-回归算法

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP君微信(id：AINLP2)，备注工作/研究方向+加群目的。