EMNLP2019 | 领域自适应的人岗匹配研究

2019 年 10 月 12 日 AI科技评论
EMNLP2019 | 领域自适应的人岗匹配研究


作者 | 人民大学、BOSS直聘
编辑 | 唐里

求职招聘市场长期存在着职位类别分布不均衡、新兴职类不断涌现的现象,这一定程度上会造成某些职类下的训练数据不够充分,从而难以获得较好的人岗匹配模型,影响推荐匹配效果。本文提出了一种结合多领域知识和层次化迁移学习的深度全局匹配网络(Transferable Deep Global Match Network),该模型能够对简历和岗位描述之间的全局匹配模式进行有效建模,并且实现了在三个层次上的迁移学习,即句子层级、句对匹配层级以及全局匹配层级。基于在线招聘平台BOSS直聘数据集的实验结果表明,本文提出的模型效果超过了state-of-the-art的人岗匹配推荐方法,各项指标均有提升。实验证明,针对训练数据不够充分的相关职类,通过引入合适的领域知识进行迁移学习,可以有效提升人岗匹配推荐效果。该论文已被自然语言处理领域国际顶级会议EMNLP2019接收。

背景介绍

近年来,随着互联网求职招聘平台的不断发展,如何解决不断涌现的新兴职类下的冷启动问题以及某些职类领域的训练样本不充分问题,显得十分重要。通过引入其他职类领域的有效知识来辅助学习相关职类的匹配特征,既有助于解决特定情况下的标记样本数据不足问题,也有助于理解不同职类领域间特征数据的联系。传统的领域自适应学习过程大多针对单文本特征进行迁移,而基于领域自适应的人岗匹配则是针对简历文本和岗位描述文本的语义匹配信息进行迁移,从具有充足训练样本的职类领域迁移文本匹配的语义信息以及匹配模式到训练样本不充分的职类领域,通过这样的迁移学习能够使得训练样本不充分的职类领域学习到更加有效的人岗匹配模型,从而提高推荐匹配效果。


问题定义

本文定义的人岗匹配即简历文档与岗位描述文档的文档对匹配问题。在我们所研究的场景下,如果求职者与该岗位的招聘者发生聊天并且达成面试约定,则认为该求职者的简历文档与该招聘者的岗位描述文档达成匹配,即为正例;如果求职者与该岗位的招聘者发生聊天但双方最终未达成面试约定,则认为该求职者的简历文档与该招聘者的岗位描述文档未达成匹配,即为负例。其中,简历文档由多句相关工作经验组成,岗位描述文档由多句岗位职责及任职要求组成。同时,本文所研究的领域自适应限定在用一个训练样本丰富的职类领域辅助学习一个训练样本不充分的职类领域。这里训练样本不充分的职类领域定义为目标领域t,而源领域s则代表的是训练样本丰富的职类领域。


方法描述

以下将从单领域人岗匹配模型和领域自适应两方面来介绍本文所采用方法的细节。如上图所示,单领域人岗匹配模型是一个面向简历文档和岗位描述文档的深度全局匹配网络框架,由层次化的文档表示、全局匹配表示,以及匹配结果预测三部分组成。领域自适应部分将重点介绍面向人岗匹配场景所设计的三个层次的迁移学习方法即结构化对应学习的句子增强表示、句对层级的匹配迁移,以及全局层级的匹配迁移。

 

单领域人岗匹配模型

1.层次化的文档表示

给定一个包含个句子的简历文档以及包含个句子的岗位描述文档作为输入。模型首先采用双向GRU去刻画简历文档和岗位描述文档的句子序列和文档序列的表示,同时,考虑到不同句子中不同词的重要性有区别,引入了注意力机制去学习其表示。

同样地,把句子当作是整个文档的基本单元,可以同样采用双向GRU和注意力机制来刻画整个简历或岗位描述的文档表示。

2.全局匹配表示

首先要计算简历文档与岗位描述文档句子间的相似度,输入有个描述简历信息的句子表示和个描述岗位信息的句子表示,就可以得到一个的匹配矩阵,该矩阵能够刻画简历文档和岗位描述文档的全局语义交互信息,在计算句子间相似度的时候采用了线性计算的形式。

受到近些年图像识别领域的方法被引入解决文本匹配问题的启发,这里采用基于卷积的方式去刻画匹配层语义特征,以交错方式堆叠两个2维卷积层和2维最大池化层,并得到最终全局匹配层的表示

3.匹配结果预测

通过学习得到的匹配层表示和简历文档信息的语义表示,以及岗位描述文档信息的语义表示拼接作为特征,最后经过一个MLP来预测最终的匹配结果。

 

领域自适应的人岗匹配模型

如前文所述,为了解决冷启动问题以及某些职类领域训练样本不足导致的匹配效果变差,我们将训练好的源领域和目标领域的简历文档和岗位描述文档作为输入,经过迁移模块,输出目标领域的最终匹配结果。

1.结构化对应学习的句子增强表示

不同职类领域可能会有显著的语义差异,这使得获取跨领域的可迁移句子语义表示变得十分困难,受传统结构化对应学习的启发,这里采用跨领域的基于枢轴特征词的结构化对应学习(SCL)来刻画句子表示,考虑如下两个来自不同职类领域的片段。

虽然“C语言编程”和“图片编辑”的语义非常不同,但它们通过枢轴词grasp(掌握)来对齐这两个领域的技能要求。通过预先筛选出的多个高质量枢轴词,SCL算法能够通过大规模的共现数据来学习这种语义对齐。具体而言,SCL算法能够学习得到一个映射函数用来转换原始的表示到更具迁移性的表示。

下图是一个SCL算法的流程图。

对于每一个句子得到基于层次化注意力机制的原始表示和经过SCL变换得到的表示,将两者进行拼接得到最终的增强的句子表示

2.句对层级的匹配迁移

在计算简历文档与岗位描述文档间的句对匹配的时候,我们引入了变换矩阵w来计算句对相似度。

一个简单的迁移策略是将参数矩阵w共享在目标领域和源领域。然而这个方法会使得捕捉特定领域的匹配信息的灵活性降低,领域局部匹配信息在不同领域下可能会有较大变化,因此我们提出分解矩阵w变为两个矩阵

A由所有域共享,而B是针对特定领域的。通过这样的分解策略,不但可以实现跨域共享参数,也可以更好地捕获特定领域的信息。

3.全局层级的匹配迁移

我们认为不仅句子层级的语义表示和句对层级的语义匹配在不同职类领域是可迁移的,针对人岗匹配这一场景,全局层级的语义匹配也是可以跨领域进行迁移学习的。具体地,我们假设匹配过程中匹配矩阵到最终匹配表示的参数是可迁移的。因此,首先采用具有丰富训练样本的源领域训练参数,同时为了增强建模的能力,也会训练目标领域的卷积模块的参数,然后将该两个模块的输出进行拼接得到最终的匹配表示。

我们采用整体训练样本的二分类交叉熵损失作为目标损失,采用Adam进行参数优化。


实验效果

本文基于在线招聘平台BOSS直聘的6个职类领域的抽样数据集进行相关实验,包含2个具有较大规模抽样数据的职类和4个抽样数据规模较小的职类。具体数据描述如下表所示。

单领域匹配模型的结果

对比方法

1)DSSM [1]提出的深度结构语义匹配模型

2)BPJFNN [2]提出的基于循环神经网络的匹配模型

3)PJFNN [3]提出的基于卷积神经网络的匹配模型

4)APJFNN [2]提出的基于层级注意力机制的匹配模型

根据表格中的实验结果,可得如下结论:

1)  在单领域的实验中,与BPJFNN和PJFNN仅采用文档刻画整个句子的语义表示不同,APJFNN(层级注意力机制的匹配模型)在三个比较方法中取得了最好的效果,因为该方法设计了四个层级的细粒度的简历文档和岗位描述文档的句子粒度的表示,这也说明了采用细粒度的注意力机制可以有效捕捉语义信息。

2)  从实验结果看,我们提出的深度全局匹配网络模型均高于其他比较方法,这说明通过全局匹配的方式不但能捕获良好的句子语义信息,同时还能高效捕获句对之间的匹配模式和匹配语义特征,这对于人岗匹配这样的复杂匹配问题尤为重要。

领域自适应的结果

对比方法

1)  SCL-MI[4] 基于互信息的方式抽取枢轴词进行结构对应学习的自适应

2)  AE-SCL-SR[5] 在SCL上提出共享低维表示

3)  ASP-MTL[6] 提出对抗多任务学习的框架去学习共享和私有的表示

根据表格中的实验结果,可得如下结论:

1)  为了说明合理引入领域知识才能提升匹配效果,这里Tgt-Only代表了单领域训练的效果,Src-Only代表使用源领域训练的模型对目标领域预测,Mixed代表了将源领域和目标领域数据混合。可以发现混合数据或使用源领域进行目标领域预测都会降低匹配效果,这说明简单混合或不合理选择领域有关的特征信息引入其它领域,会降低匹配的精度。

2)  在对比方法中,采用AE-SCL和ASP-MTL,均较单一领域的匹配效果有所提升,尤其是ASP-MTL取得比较方法里最好的效果,由于ASP-MTL采用了对抗的机制,既使用共享特征又保留独享特征,合理迁移了相关的知识从而取得更好的效果。

3)  我们的方法在所有方法里取得了最好的效果,可以看到由于在该方法中既进一步增强句子级别的语义表示又加强了匹配语义特征的迁移,使得这样的模型在样本不充分的领域取得了更好且更具解释性的表现。

除了上述的实验指标分析,我们也同时分析了为什么采用重用源域卷积层可以进一步提升表现。

在上图中可以看出全局匹配层在正例和负例的匹配模式明显不同,对比图a和图c可以看出它们的匹配模式通常发生在对角线上,这说明绝大部分的岗位描述和简历能匹配且在所有领域具备相似的情况,而在不匹配的例子中虽然也存在大量的匹配对,但它们的匹配模式通常不在对角线上,这说明这样的匹配往往是不符合要求的匹配且存在极大的不相关性,也侧面说明了绝大部分的匹配需要做到满足匹配覆盖度。

同时,该图也说明了迁移全局匹配信息的重要性,可以发现在目标领域和源领域存在着大量相似的匹配模式,这些匹配模式下虽然背后所表达的语义信息不同,但却存在很多类似的匹配结构,进一步证明了迁移全局层级的语义匹配信息的重要性和合理性。


参考文献

[1] Po-Sen Huang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Acero, and Larry Heck. 2013. Learning deep structured semantic models for web search using clickthrough data. In Proceedings of the 22nd ACM international conference on Conference on information and knowledge management, pages 2333–2338. ACM.

[2] Chuan Qin, Hengshu Zhu, Tong Xu, Chen Zhu, Liang Jiang, Enhong Chen, and Hui Xiong. 2018. Enhancing person-job fit for talent recruitment: An ability-aware neural network approach. In In Proceedings of the 41st International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR-2018) , Ann Arbor, Michigan, USA.

[3] Chen Zhu, Hengshu Zhu, Hui Xiong, Chao Ma, Fang Xie, Pengliang Ding, and Pan Li. 2018. Person-job fit: Adapting the right talent for the right job with joint representation learning. ACM Transactions on Management Information Systems ACM TMIS.

[4] John Blitzer, Mark Dredze, and Fernando Pereira. 2007. Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification. In Proceedings of the 45th annual meeting of the association of computational linguistics, pages 440–447.

[5] Yftah Ziser and Roi Reichart. 2017. Neural structural correspondence learning for domain adaptation. In Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017), pages 400–410.

[6] Pengfei Liu, Xipeng Qiu, and Xuanjing Huang. 2017. Adversarial multi-task learning for text classification. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1–10.



 


   数学与 AI「融通」 ,徐宗本院士进行超强“迁移学习”

   张钹院士:人工智能的魅力就是它永远在路上 | CCAI 2019

   Facebook 自然语言处理新突破:新模型能力赶超人类 & 超难 NLP 新基准

   探索无限大的神经网络


点击“阅读原文” 查看 EMNLP 2018 Facebook、谷歌 39 篇会议论文合集

登录查看更多
2

相关内容

领域自适应是与机器学习和转移学习相关的领域。 当我们的目标是从源数据分布中学习在不同(但相关)的目标数据分布上的良好性能模型时,就会出现这种情况。 例如,常见垃圾邮件过滤问题的任务之一在于使模型从一个用户(源分发)适应到接收显着不同的电子邮件(目标分发)的新模型。 注意,当有多个源分发可用时,该问题被称为多源域自适应。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

随着图像处理,语音识别等人工智能技术的发展,很多学习方法尤其是采用深度学习框架的方法取得了优异的性能,在精度和速度方面有了很大的提升,但随之带来的问题也很明显,这些学习方法如果要获得稳定的学习效果,往往需要使用数量庞大的标注数据进行充分训练,否则就会出现欠拟合的情况而导致学习性能的下降。因此,随着任务复杂程度和数据规模的增加,对人工标注数据的数量和质量也提出了更高的要求,造成了标注成本和难度的增大。同时,单一任务的独立学习往往忽略了来自其他任务的经验信息,致使训练冗余重复因而导致了学习资源的浪费,也限制了其性能的提升。为了缓解这些问题,属于迁移学习范畴的多任务学习方法逐渐引起了研究者的重视。与单任务学习只使用单个任务的样本信息不同,多任务学习假设不同任务数据分布之间存在一定的相似性,在此基础上通过共同训练和优化建立任务之间的联系。这种训练模式充分促进任务之间的信息交换并达到了相互学习的目的,尤其是在各自任务样本容量有限的条件下,各个任务可以从其它任务获得一定的启发,借助于学习过程中的信息迁移能间接利用其它任务的数据,从而缓解了对大量标注数据的依赖,也达到了提升各自任务学习性能的目的。在此背景之下,本文首先介绍了相关任务的概念,并按照功能的不同对相关任务的类型进行划分后再对它们的特点进行逐一描述。然后,本文按照数据处理模式和任务关系建模过程的不同将当前的主流算法划分为两大类:结构化多任务学习算法和深度多任务学习算法。其中,结构化多任务学习算法采用线性模型,可以直接针对数据进行结构假设并且使用原有标注特征表述任务关系,同时,又可根据学习对象的不同将其细分为基于任务层面和基于特征层面两种不同结构,每种结构有判别式方法和生成式方法两种实现手段。与结构化多任务学习算法的建模过程不同,深度多任务学习算法利用经过多层特征抽象后的深层次信息进行任务关系描述,通过处理特定网络层中的参数达到信息共享的目的。紧接着,以两大类算法作为主线,本文详细分析了不同建模方法中对任务关系的结构假设、实现途径、各自的优缺点以及方法之间的联系。最后,本文总结了任务之间相似性及其紧密程度的判别依据,并且分析了多任务作用机制的有效性和内在成因,从归纳偏置和动态求解等角度阐述了多任务信息迁移的特点。 http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=JSJX20190417000&dbcode=CJFD&dbname=CAPJ2019

成为VIP会员查看完整内容
0
42

【导读】国际万维网大会(The Web Conference,简称WWW会议)是由国际万维网会议委员会发起主办的国际顶级学术会议,创办于1994年,每年举办一届,是CCF-A类会议。WWW 2020已于2020年4月20日至4月24日在中国台湾台北举行。会议论文集已经公开,大家可以自己查看感兴趣的论文,专知小编继续整理WWW 2020 系列论文,这期小编为大家奉上的是WWW 2020六篇迁移学习(Transfer Learning)相关论文,供大家参考!——主动域迁移、多任务域迁移、类别注意力迁移网络、多模态域迁移、跨域推荐、跨域欺诈检测。

WWW 2020 会议论文集: https://dl.acm.org/doi/proceedings/10.1145/3366423

WWW2020KG+GNN、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN

CCF-A类顶会WWW2020最佳论文出炉!OSU最佳论文,北邮斩获最佳学生论文!

1. Active Domain Transfer on Network Embedding

作者:Lichen Jin, Yizhou Zhang, Guojie Song, Yilun Jin

摘要:最近的工作表明,端到端、监督(半监督)的网络嵌入模型可以生成令人满意的向量来表示网络拓扑,甚至可以通过归纳学习(inductive learning)适用于未知(unseen)的图。然而,归纳学习的训练网络和测试网络之间的域不匹配,以及缺乏标记数据,会影响这种方法的结果。相应地能够解决上述问题的迁移学习和主动学习(active learning)技术已经在常规独立同分布数据上得到了很好的研究,而它们在网络上的关注相对较少。因此,本文提出了一种网络上的主动迁移学习方法,称为主动迁移网络嵌入(Active-Transfer Network Embedding,ATNE)。在ATNE中,我们从迁移和主动学习两个角度综合考虑各个节点对网络的影响,从而在训练过程中结合这两个方面设计新颖有效的影响分值以方便节点的选择。我们证明了ATNE是有效的,并且与实际使用的模型是解耦的。进一步的实验表明,ATNE的性能优于最新的主动节点选择方法,并且在不同的情况下表现出了通用性。

网址: https://dl.acm.org/doi/abs/10.1145/3366423.3380024

2. Anchored Model Transfer and Soft Instance Transfer for Cross-Task Cross-Domain Learning: A Study Through Aspect-Level Sentiment Classification

作者:Yaowei Zheng, Richong Zhang, Suyuchen Wang, Samuel Mensah, Yongyi Mao

摘要:监督学习在很大程度上依赖于容易获得的标记数据来推断有效的分类函数。然而,在有监督学习下提出的方法面临领域内标注数据稀缺的问题,且通用性不够强,不能适用于其他任务。通过允许跨域和跨任务共享知识,迁移学习已被证明是解决这些问题的一个有价值的选择。通过允许跨域和跨任务共享知识,迁移学习已被证明是解决上述问题的一个有价值的选择。本文提出了Anchored Model迁移(AMT)和Soft Instance迁移(SIT)两种迁移学习方法,这两种学习方法都是基于多任务学习,兼顾了模型迁移和实例迁移,可以结合到一个通用的框架中。我们证明了AMT和SIT对于aspect-level的情感分类的有效性,在基准数据集上我们的模型表现出比基线模型更有竞争力的表现。有趣的是,AMT + SIT的集成可在同一任务上实现最先进的性能。

网址:

https://dl.acm.org/doi/abs/10.1145/3366423.3380034

  1. Domain Adaptation with Category Attention Network for Deep Sentiment Analysis

作者:Dongbo Xi, Fuzhen Zhuang, Ganbin Zhou, Xiaohu Cheng, Fen Lin, Qing He

摘要:跨域情感分类等领域自适应任务旨在利用源域中已有的已标记数据和目标域中未标记或很少的标记数据,通过减少数据分布之间的偏移来提高目标域的性能。现有的跨领域情感分类方法需要区中心点(pivots)(即领域共享的情感词)和非中心点(即领域特定的情感词),才能获得良好的自适应性能。本文首先设计了一个类别注意网络(CAN),然后提出了一种将CAN和卷积神经网络(CNN)相结合的CAN-CNN模型。该模型一方面将中心点和非中心点作为统一的类别属性词进行自动捕获,提高领域自适应性能;另一方面,对迁移后的类别属性词进行可解释性学习的尝试。具体地说,该模型的优化目标有三个不同的组成部分:1)监督分类损失;2)类别特征权重的分布损失;3)领域不变性损失。最后,在三个舆情分析数据集上对所提出的模型进行了评估,结果表明CAN-CNN的性能优于其他各种基线方法。

网址:

https://dl.acm.org/doi/abs/10.1145/3366423.3380088

4. Domain Adaptive Multi-Modality Neural Attention Network for Financial Forecasting

作者:Dawei Zhou, Lecheng Zheng, Yada Zhu, Jianbo Li, Jingrui He

摘要:金融时间序列分析在优化投资决策、对冲市场风险方面起着核心作用。这是一项具有挑战性的任务,因为问题总是伴随着双层(即数据级和任务级)的异构性。例如,在股价预测中,一个成功的具有有限风险的投资组合通常由来自不同领域(如公用事业、信息技术、医疗保健等)的大量股票组成,每个领域的股票预测可以视为一个任务;在一个投资组合中,每个股票的特征是从多个模态(例如金融、天气和新闻)收集的时间数据,这对应于数据层的异构性。此外,金融业遵循高度监管的过程,这就要求预测模型是可解释的,输出结果必须满足合规性。因此,一个自然的研究问题就是如何建立一个模型,既能在解决此类多通道多任务学习问题时取得满意的性能,又能为最终用户提供全面的解释。为了回答这个问题,本文提出了一个通用的时间序列预测框架Dandelion,它利用多模态的一致性,并使用深度神经网络来探索多个任务的相关性。此外,为了保证框架的可解释性,我们集成了一种新的三位一体的注意机制,允许最终用户在三个维度(即任务、通道和时间)上调查变量重要性。广泛的实证结果表明,Dandelion在过去15年中对来自4个不同领域的396只股票的金融市场预测取得了优异的表现。具体地说,两个有趣的案例研究显示了Dandelion在其盈利表现和输出结果对最终用户的可解释性方面的成效。

网址:

https://dl.acm.org/doi/abs/10.1145/3366423.3380288

5. Exploiting Aesthetic Preference in Deep Cross Networks for Cross-domain Recommendation

作者:Jian Liu, Pengpeng Zhao, Fuzhen Zhuang, Yanchi Liu, Victor S. Sheng, Jiajie Xu, Xiaofang Zhou, Hui Xiong

摘要:产品的视觉美学在购买外观优先的产品(如服装)的决策过程中起着重要的作用。用户的审美偏好作为一种个性特征和基本要求,是与领域无关的,可以作为领域间知识迁移的桥梁。然而,现有的工作很少考虑产品图像中的审美信息进行跨域推荐。为此,本文提出了一种新的深度审美跨域网络(ACDN),通过跨网络共享表征个人审美偏好的参数来实现领域间的知识传递。具体地说,我们首先利用审美网络来提取审美特征。然后,我们将这些特征集成到一个跨域网络中,以传递用户与领域无关的审美偏好。此外,还引入了网络交叉连接,以实现跨域的双重知识转移。最后,在真实数据集上的实验结果表明,我们提出的模型ACDN在推荐准确率方面优于基准方法。

网址:

https://dl.acm.org/doi/abs/10.1145/3366423.3380036

6. Modeling Users’ Behavior Sequences with Hierarchical Explainable Network for Cross-domain Fraud Detection

作者:Yongchun Zhu, Dongbo Xi, Bowen Song, Fuzhen Zhuang, Shuai Chen, Xi Gu, Qing He

摘要:随着电子商务行业的爆炸式增长,检测现实应用中的网络交易欺诈对电子商务平台的发展变得越来越重要。用户的连续行为历史为区分欺诈支付和正常支付提供了有用的信息。最近,已经提出了一些方法来解决这一基于序列的欺诈检测问题。然而,这些方法通常存在两个问题:预测结果难以解释和对行为内部信息的利用不足。针对上述两个问题,本文提出了一种分层可解释网络(HEN)对用户行为序列进行建模,不仅提高了欺诈检测的性能,而且使推理过程具有可解释性。同时,随着电子商务业务扩展到新的领域,例如,新的国家或新的市场,在欺诈检测系统中建模用户行为的一个主要问题是数据收集的限制(例如,可用的数据/标签非常少)。因此,在本文中,我们进一步提出了一个跨域欺诈检测问题的迁移框架,该框架的目的是从现有领域(源域)迁移足够成熟数据的知识,以提高在新领域(目标域)的性能。我们提出的方法是一个通用的迁移框架,它不仅可以应用于HEN,而且可以应用于嵌入&MLP范式中的各种现有模型。利用世界领先的跨境电商平台的数据,我们在不同国家进行了广泛的检测盗卡交易诈骗的实验,以展示HEN的优越性能。此外,基于90个迁移任务的实验,证明了我们的迁移框架不仅可以用于HEN的跨域诈骗检测任务,而且对现有的各种模型都具有通用性和可扩展性。此外,HEN和迁移框架形成了三个级别的注意力,极大地提高了检测结果的可解释性。

网址:

https://dl.acm.org/doi/abs/10.1145/3366423.3380172

成为VIP会员查看完整内容
0
38

摘要: 近年来,随着深度学习的快速发展,面向自然语言处理领域的预训练技术获得了长足的进步。早期的自然语言处理领域长期使用Word2Vec等词向量方法对文本进行编码,这些词向量方法也可看作静态的预训练技术。然而,这种上下文无关的文本表示给其后的自然语言处理任务带来的提升非常有限,并且无法解决一词多义问题。ELMo提出了一种上下文相关的文本表示方法,可有效处理多义词问题。其后,GPT和BERT等预训练语言模型相继被提出,其中BERT模型在多个典型下游任务上有了显著的效果提升,极大地推动了自然语言处理领域的技术发展,自此便进入了动态预训练技术的时代。此后,基于BERT的改进模型、XLNet等大量预训练语言模型不断涌现,预训练技术已成为自然语言处理领域不可或缺的主流技术。文中首先概述预训练技术及其发展历史,并详细介绍自然语言处理领域的经典预训练技术,包括早期的静态预训练技术和经典的动态预训练技术;然后简要梳理一系列新式的有启发意义的预训练技术,包括基于BERT的改进模型和XLNet;在此基础上,分析目前预训练技术研究所面临的问题;最后对预训练技术的未来发展趋势进行展望。

成为VIP会员查看完整内容
0
36

半监督学习介于传统监督学习和无监督学习之间,是一种新型机器学习方法,其思想是在标记样本数量很少的情况下,通过在模型训练中引入无标记样本来 避免传统监督学习在训练样本不足(学习不充分)时出现性能(或模型)退化的问 题。上海交通大学屠恩美和杨杰老师撰写了一篇关于《半监督学习理论及其研究进展概述》论文,详细阐述了最新回顾了半监督学习的发展历程和主要理 论,并介绍了半监督学习研究的最新进展,最后结合应用实例分析了半监督学习在 解决实际问题中的重要作用。

成为VIP会员查看完整内容
A Review of Semi Supervised Learning Theories and Recent Advances.pdf
0
33
小贴士
相关VIP内容
专知会员服务
42+阅读 · 7月10日
专知会员服务
32+阅读 · 1月20日
【上海交大】半监督学习理论及其研究进展概述
专知会员服务
33+阅读 · 2019年10月18日
生成式对抗网络GAN异常检测
专知会员服务
28+阅读 · 2019年10月13日
[综述]基于深度学习的开放领域对话系统研究综述
专知会员服务
30+阅读 · 2019年10月12日
相关论文
Zequn Sun,Chengming Wang,Wei Hu,Muhao Chen,Jian Dai,Wei Zhang,Yuzhong Qu
10+阅读 · 2019年11月20日
Question Generation by Transformers
Kettip Kriangchaivech,Artit Wangperawong
3+阅读 · 2019年9月14日
Adversarial Transfer Learning
Garrett Wilson,Diane J. Cook
6+阅读 · 2018年12月6日
Sambaran Bandyopadhyay,Lokesh N,M. N. Murty
3+阅读 · 2018年11月19日
Next Item Recommendation with Self-Attention
Shuai Zhang,Yi Tay,Lina Yao,Aixin Sun
4+阅读 · 2018年8月25日
A Survey on Deep Transfer Learning
Chuanqi Tan,Fuchun Sun,Tao Kong,Wenchang Zhang,Chao Yang,Chunfang Liu
6+阅读 · 2018年8月6日
Qingyao Ai,Vahid Azizi,Xu Chen,Yongfeng Zhang
9+阅读 · 2018年5月9日
Ankan Bansal,Karan Sikka,Gaurav Sharma,Rama Chellappa,Ajay Divakaran
4+阅读 · 2018年4月12日
Zhanxiang Feng,Jianhuang Lai,Xiaohua Xie
7+阅读 · 2018年3月30日
Shuai Zhang,Lina Yao,Aixin Sun
4+阅读 · 2017年8月3日
Top