随着数据的不断收集、存储和分析,人们需要更高效、可扩展且健壮的方法来处理这些数据。表示学习,即利用神经网络获得数据对象的通用向量表示(嵌入)的实践,已被证明在处理各种数据形态(如图像和文本)的应用中非常有效。在这篇论文中,我们探讨了这种成功如何扩展到结构化数据的形态,例如表格,我们称之为表格表示学习(TRL)。学习到的表格嵌入能够支持数据管理和分析中的各种下游任务,例如数据验证和准备。

在这篇论文中,我们展示了对此主题探索的结果,从用于自动表格理解的神经嵌入方法开始。表格的语义,特别是其列的语义,决定了可以对其执行的操作。为此,我们贡献了Sherlock,这是一个用于以可扩展、健壮且准确的方式检测表格列的语义类型的深度学习模型。我们还展示了一个系统,AdaTyper,它能够有效且高效地将此类语义类型检测模型适应于未见过的数据分布和新的语义类型。 尽管具备适应功能,神经嵌入模型只有在训练数据充分代表上下文时才有效。由于现有的TRL模型通常是在从网页提取的表格上预训练的,这些表格并不能很好地代表现实世界中的表格,我们引入了GitTables:一个从存储在GitHub上的CSV文件中提取的大型关系表格语料库。GitTables中的表格更类似于典型的数据库表格,并且丰富了列的语义。最后,我们展示了Observatory,这是一个框架和工具,用于分析学习到的表格嵌入在关系表格的结构和内容特征方面捕获了什么。通过Observatory,我们识别了现有模型及其生成的表格嵌入的优点和缺点。 论文最后总结了我们的发现,并围绕表格表示学习的开放挑战和未来机会进行了讨论。

成为VIP会员查看完整内容
34

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】高效可靠深度学习的共形方法,213页pdf
专知会员服务
35+阅读 · 2023年11月12日
【MIT博士论文】从未整理数据中的鲁棒学习,220页pdf
专知会员服务
48+阅读 · 2023年11月10日
【CMU博士论文】高效且可扩展的表示学习,152页pdf
专知会员服务
35+阅读 · 2023年6月12日
【伯克利博士论文】可迁移生成模型,137页pdf
专知会员服务
52+阅读 · 2023年5月23日
【伯克利博士论文】数据与标签高效表示学习,114页pdf
专知会员服务
49+阅读 · 2023年2月20日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
53+阅读 · 2022年9月3日
【硬核书】数据科学,282页pdf
专知
21+阅读 · 2022年11月29日
【2022新书】深度学习归一化技术,117页pdf
专知
17+阅读 · 2022年11月25日
【干货书】高维统计学,572页pdf
专知
12+阅读 · 2021年12月3日
【干货书】计算机科学离散数学,627页pdf
专知
54+阅读 · 2020年8月31日
深度多模态表示学习综述论文,22页pdf
专知
28+阅读 · 2020年6月21日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
54+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
16+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【MIT博士论文】高效可靠深度学习的共形方法,213页pdf
专知会员服务
35+阅读 · 2023年11月12日
【MIT博士论文】从未整理数据中的鲁棒学习,220页pdf
专知会员服务
48+阅读 · 2023年11月10日
【CMU博士论文】高效且可扩展的表示学习,152页pdf
专知会员服务
35+阅读 · 2023年6月12日
【伯克利博士论文】可迁移生成模型,137页pdf
专知会员服务
52+阅读 · 2023年5月23日
【伯克利博士论文】数据与标签高效表示学习,114页pdf
专知会员服务
49+阅读 · 2023年2月20日
【MIT博士论文】异构医疗数据表示学习,193页pdf
专知会员服务
53+阅读 · 2022年9月3日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
29+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员