标题

一个全面的主动学习方法的实体匹配基准框架,A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

关键字

实体匹配,自然语言处理,主动学习,人工智能

简介

实体匹配(EM)是一项核心的数据清理任务,旨在识别同一真实世界实体的不同提及。主动学习是在实践中解决稀缺标签数据挑战的一种方法,方法是动态收集要由Oracle标记的必要示例并在其上完善学习的模型(分类器)。 在本文中,我们为EM建立了统一的主动学习基准框架,使用户可以轻松地将不同的学习算法与适用的示例选择算法结合起来。 该框架的目标是为从业人员制定具体的指导方针,以说明哪些主动学习组合将对EM有效。 为此,我们使用包括EM质量,#labels和示例选择等待时间在内的各种指标,对来自产品和出版领域的公开可用EM数据集进行了全面的实验,以评估主动学习方法。 我们最令人惊讶的结果发现,标签较少的主动学习可以学习质量与监督学习相当的分类器。 实际上,对于其中的一些数据集,我们表明有一种主动的学习组合可以击败最新的监督学习结果。 我们的框架还包括新颖的优化功能,这些功能可将学习模型的F1分数提高大约9%,并将示例选择延迟降低10倍,而不会影响模型的质量。

作者

Vamsi Meduri,Lucian Popa,Prithviraj Sen,Mohamed Sarwat,来自Arizona State University,IBM Research, Almaden

成为VIP会员查看完整内容
23

相关内容

【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
Machine Learning:十大机器学习算法
开源中国
19+阅读 · 2018年3月1日
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
开放知识图谱
4+阅读 · 2017年12月30日
深度文本匹配开源工具(MatchZoo)
中国科学院网络数据重点实验室
7+阅读 · 2017年12月5日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
A Survey on Deep Learning for Named Entity Recognition
Arxiv
72+阅读 · 2018年12月22日
Arxiv
15+阅读 · 2018年6月23日
Arxiv
15+阅读 · 2018年2月4日
Arxiv
5+阅读 · 2017年7月23日
VIP会员
相关VIP内容
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
相关资讯
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
资源 | 一份非常全面的开源数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年9月7日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
LibRec 精选:推荐系统9个必备数据集
LibRec智能推荐
6+阅读 · 2018年3月7日
Machine Learning:十大机器学习算法
开源中国
19+阅读 · 2018年3月1日
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
开放知识图谱
4+阅读 · 2017年12月30日
深度文本匹配开源工具(MatchZoo)
中国科学院网络数据重点实验室
7+阅读 · 2017年12月5日
相关论文
微信扫码咨询专知VIP会员