BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。

VIP内容

最近,自然语言处理领域的进步引发了adhoc搜索任务的复兴。特别是,大型上下文化语言建模技术,如BERT,已经为排序模型配备了比以前的单词袋(BoW)模型更深入的语言理解能力。将这些技术应用到新任务中是很棘手的,需要深度学习框架的知识,以及重要的脚本和数据分析。在这个搜索教程中,我们将从基本的检索原则建立到最新的神经排序技术。我们提供古典(例如,BoW),现代(例如,排序学习)和当代(例如,BERT搜索排名和重新排名技术的背景。进一步,我们详细说明并演示了如何以一种新的声明式的实验风格,以PyTerrier和OpenNIR搜索工具包为例,轻松地实验性地将这些方法应用到新的搜索任务中。

本教程对参与者来说是交互式的;它被分成几个部分,每个部分都是使用在谷歌协作平台上运行的准备好的Jupyter进行解释性演示和实践活动。

在本教程结束时,学员将能够轻松地访问经典的倒排索引数据结构,构建声明式检索管道,并使用最先进的神经排序模型进行实验。

成为VIP会员查看完整内容
0
30

最新论文

In this work, we show the process of building a large-scale training set from digital and digitized collections at a national library. The resulting Bidirectional Encoder Representations from Transformers (BERT)-based language model for Norwegian outperforms multilingual BERT (mBERT) models in several token and sequence classification tasks for both Norwegian Bokm{\aa}l and Norwegian Nynorsk. Our model also improves the mBERT performance for other languages present in the corpus such as English, Swedish, and Danish. For languages not included in the corpus, the weights degrade moderately while keeping strong multilingual properties. Therefore, we show that building high-quality models within a memory institution using somewhat noisy optical character recognition (OCR) content is feasible, and we hope to pave the way for other memory institutions to follow.

0
0
下载
预览
Top