The segmentation of emails into functional zones (also dubbed email zoning) is a relevant preprocessing step for most NLP tasks that deal with emails. However, and despite the multilingual character of emails and their applications, previous literature regarding email zoning corpora and systems was developed essentially for English. In this paper, we analyse the existing email zoning corpora and propose a new multilingual benchmark composed of 635 emails in Portuguese, Spanish and French. Moreover, we introduce OKAPI, the first multilingual email segmentation model based on a language-agnostic sentence encoder. Besides generalizing well for unseen languages, our model is competitive with current English benchmarks, and reached new state-of-the-art performances for domain adaptation tasks in English.


翻译:将电子邮件分割到功能区(也称为电子邮件分区)是处理大多数处理电子邮件的NLP任务的一个相关预处理步骤。 然而,尽管电子邮件及其应用具有多种语言性质,但先前关于电子邮件分区的文献和系统主要是为英文开发的。在本文件中,我们分析现有的电子邮件分区公司,并提议一个新的多语种基准,由635个葡萄牙语、西班牙语和法语电子邮件组成。此外,我们引入了基于语言认知句子编码器的第一个多语言电子邮件分割模式 OKAPI。 我们的模式除了对不为人知的语言进行普及外,还具有与当前英语基准的竞争力,并实现了以英语进行域适应任务的最新最新表现。

0
下载
关闭预览

相关内容

知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
还在修改博士论文?这份《博士论文写作技巧》为你指南
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
已删除
将门创投
4+阅读 · 2017年12月5日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Arxiv
0+阅读 · 2021年3月24日
Arxiv
5+阅读 · 2018年10月23日
Arxiv
4+阅读 · 2018年9月6日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
已删除
将门创投
4+阅读 · 2017年12月5日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Top
微信扫码咨询专知VIP会员