Data integration is a long-standing interest of the data management community and has many disparate applications, including business, government and Web search. We have recently witnessed impressive results in isolated data integration tasks, such as Entity Resolution, thanks to the increasing availability of benchmarks for training and testing purposes. Unfortunately, such benchmarks often come with their own task definition and it can be difficult to leverage them for more complex pipelines. As a result, evaluating automated pipelines for the entire data integration process is still an elusive goal. In this work, we present the Alaska benchmark, the first real-world dataset to support seamlessly multiple tasks and tasks variants of the data integration pipeline. It consists of a wide and heterogeneous selection of product specifications from different electronics e-commerce websites and providing hundreds of different product properties. Our benchmark comes with profiling meta-data, pre-defined use cases with different characteristics, and an extensive manually curated ground truth. We demonstrate the flexibility of our benchmark by focusing on two crucial data integration tasks, Schema Matching and Entity Resolution, and some of their popular variants. Our benchmark allows us to compare on the same stage a variety of methods that previously were difficult to picture together, and we hope that it can foster the design of more holistic data integration solutions.


翻译:数据整合是数据管理界的长期利益,并有许多不同的应用程序,包括商业、政府和网络搜索。我们最近目睹了孤立的数据整合任务,如实体决议等孤立的数据整合任务取得令人印象深刻的成果,这是因为为培训和测试目的提供了越来越多的基准;不幸的是,这些基准往往具有自己的任务定义,很难将其用于更为复杂的管道。结果,对整个数据整合过程的自动化管道进行评估仍然是一个难以实现的目标。在这项工作中,我们提出了阿拉斯加基准,这是第一个支持数据整合管道无缝多重任务和任务变异的真实世界数据集。它包括从不同的电子商务网站广泛和多样化地选择产品规格,并提供数百种不同的产品特性。我们的基准涉及剖析元数据,预先确定具有不同特点的使用案例,以及广泛的手工整理的地面真相。我们通过侧重于两个关键的数据整合任务,即Schema匹配和实体解析,以及其中的一些广受欢迎的变式,展示了我们基准的灵活性。我们的基准使我们能够在同一阶段比较以前难以共同设计的各种解决办法,我们希望它能够促进整体整合的数据设计。

0
下载
关闭预览

相关内容

Integration:Integration, the VLSI Journal。 Explanation:集成,VLSI杂志。 Publisher:Elsevier。 SIT:http://dblp.uni-trier.de/db/journals/integration/
专知会员服务
17+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
58+阅读 · 2019年12月21日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
144+阅读 · 2019年10月27日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
已删除
创业邦杂志
5+阅读 · 2019年3月27日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
14+阅读 · 2019年11月26日
Semantics of Data Mining Services in Cloud Computing
Arxiv
4+阅读 · 2018年10月5日
Arxiv
5+阅读 · 2018年5月22日
Arxiv
16+阅读 · 2018年4月2日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
相关VIP内容
专知会员服务
17+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
【大规模数据系统,552页ppt】Large-scale Data Systems
专知会员服务
58+阅读 · 2019年12月21日
吴恩达新书《Machine Learning Yearning》完整中文版
专知会员服务
144+阅读 · 2019年10月27日
【新书】Python编程基础,669页pdf
专知会员服务
186+阅读 · 2019年10月10日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
已删除
创业邦杂志
5+阅读 · 2019年3月27日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
LibRec 精选:推荐系统的论文与源码
LibRec智能推荐
14+阅读 · 2018年11月29日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员