【ACL2020】BERT如何融合主题模型做文本匹配

2020 年 12 月 7 日 深度学习自然语言处理

来自:NLP从入门到放弃

今天分享一个论文ACL2020-tBERT[1],论文主要融合主题模型和BERT去做语义相似度判定,在特定领域使用这个模型,效果更明显。

掌握以下几点:

  1. 【CLS】向量拼接两个句子各自的主题模型,效果有提升
  2. 尤其是在特定领域的数据集合会有更好的表现。

第二点这个特定领域发现还挺有意思的,感兴趣的可以在自己数据集做个试验扩展。

1. 架构图

先看架构图:

tbert架构图

模型架构比较简单,BERT这边使用的【CLS】输出向量:

主题模型使用两种,LDA和GSDMM,主要是因为LDA在长文本效果更好;GSDMM在短文本效果更好。

获取主题模型如下所示:

代表的是主题数量,N是 的字数量,M是 的字数量

进而我们可以得到单词的主题分布:

所以在最后和【CLS】连接的时候,可以使用文档主题 ,也可以使用单词主题

2.实验效果

tBERT实验效果

看实验效果,LDA效果会比GSDMM更好一点。

其实有一个比较有意思的点是,BERT的建模能力已经足够强了,为啥加上主题模型还会有提升。

换句话说,主题模型在基于BERT的方向上,能够在哪些方面提升

作者是这么做的实验,他选了和主题模型相关的三个属性:实体,特定领域词和不规范拼写。根据三个属性抽取样本,总共500个, 然后让BERT和tBERT做预测。

tBERT三个属性实验

看实验效果是这样的,发现在特定领域tBERT效果更明显一点。

作者认为在预训练的时候,可能是BERT碰到特定领域词汇的机会比较少,没有很好的学习到这些信息,所以主题模型很好的补充了这部分信息。

不过,感觉这个实验并不充分,一个属性这块挑选感觉有点不太充分,还有一个是样本数量感觉太少了,500个......

总结

说一下掌握的知识点:

  1. 【CLS】向量拼接两个句子各自的主题模型,效果有提升
  2. 尤其是在特定领域的数据集合会有更好的表现。

说一下我自己的思考,关于特定领域这块。一般来说,微调是可以解决这个问题的。

不过看作者的实验,即使是微调之后的BERT,在特定领域这块,效果也没有tBERT好,说明主题模型在这块还是很有用的。

进一步思考,可不可以这么推论,如果说我们的任务输入越是特定领域,那么假如tBERT越有明显的提升呢?

这个感兴趣的大家可以去试一试,比如医疗领域,比如金融领域之类的。

参考资料

[1]

tBERT: Topic Models and BERT Joining Forces for Semantic Similarity Detection: https://www.aclweb.org/anthology/2020.acl-main.630.pdf,

登录查看更多
2

相关内容

主题模型,顾名思义,就是对文字中隐含主题的一种建模方法。“苹果”这个词的背后既包含是苹果公司这样一个主题,也包括了水果的主题。   在这里,我们先定义一下主题究竟是什么。主题就是一个概念、一个方面。它表现为一系列相关的词语。比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语,它的条件概率越大,反之则越小。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【2020新书】预训练Transformer模型的文本排序
专知会员服务
61+阅读 · 2020年10月18日
专知会员服务
29+阅读 · 2020年9月13日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
34+阅读 · 2020年5月1日
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
16+阅读 · 2020年4月20日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
五千字全面梳理文本匹配
AINLP
5+阅读 · 2020年10月3日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
【NLP】文本匹配相关方向打卡点总结
深度学习自然语言处理
21+阅读 · 2019年12月9日
文本匹配相关方向打卡点总结
夕小瑶的卖萌屋
8+阅读 · 2019年10月18日
基于DGCNN和概率图的轻量级信息抽取模型
PaperWeekly
7+阅读 · 2019年6月27日
3分钟看懂史上最强NLP模型BERT
新智元
22+阅读 · 2019年2月27日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
如何匹配两段文本的语义?
黑龙江大学自然语言处理实验室
7+阅读 · 2018年7月21日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2019年8月22日
Arxiv
12+阅读 · 2019年2月28日
Arxiv
12+阅读 · 2018年9月15日
VIP会员
相关VIP内容
【2020新书】预训练Transformer模型的文本排序
专知会员服务
61+阅读 · 2020年10月18日
专知会员服务
29+阅读 · 2020年9月13日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取
专知会员服务
34+阅读 · 2020年5月1日
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
16+阅读 · 2020年4月20日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
相关资讯
五千字全面梳理文本匹配
AINLP
5+阅读 · 2020年10月3日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
【NLP】文本匹配相关方向打卡点总结
深度学习自然语言处理
21+阅读 · 2019年12月9日
文本匹配相关方向打卡点总结
夕小瑶的卖萌屋
8+阅读 · 2019年10月18日
基于DGCNN和概率图的轻量级信息抽取模型
PaperWeekly
7+阅读 · 2019年6月27日
3分钟看懂史上最强NLP模型BERT
新智元
22+阅读 · 2019年2月27日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
如何匹配两段文本的语义?
黑龙江大学自然语言处理实验室
7+阅读 · 2018年7月21日
Top
微信扫码咨询专知VIP会员