【阿姆斯特丹博士论文】表格表示学习，179页pdf

随着数据的不断收集、存储和分析，人们需要更高效、可扩展且健壮的方法来处理这些数据。表示学习，即利用神经网络获得数据对象的通用向量表示（嵌入）的实践，已被证明在处理各种数据形态（如图像和文本）的应用中非常有效。在这篇论文中，我们探讨了这种成功如何扩展到结构化数据的形态，例如表格，我们称之为表格表示学习（TRL）。学习到的表格嵌入能够支持数据管理和分析中的各种下游任务，例如数据验证和准备。

在这篇论文中，我们展示了对此主题探索的结果，从用于自动表格理解的神经嵌入方法开始。表格的语义，特别是其列的语义，决定了可以对其执行的操作。为此，我们贡献了Sherlock，这是一个用于以可扩展、健壮且准确的方式检测表格列的语义类型的深度学习模型。我们还展示了一个系统，AdaTyper，它能够有效且高效地将此类语义类型检测模型适应于未见过的数据分布和新的语义类型。尽管具备适应功能，神经嵌入模型只有在训练数据充分代表上下文时才有效。由于现有的TRL模型通常是在从网页提取的表格上预训练的，这些表格并不能很好地代表现实世界中的表格，我们引入了GitTables：一个从存储在GitHub上的CSV文件中提取的大型关系表格语料库。GitTables中的表格更类似于典型的数据库表格，并且丰富了列的语义。最后，我们展示了Observatory，这是一个框架和工具，用于分析学习到的表格嵌入在关系表格的结构和内容特征方面捕获了什么。通过Observatory，我们识别了现有模型及其生成的表格嵌入的优点和缺点。论文最后总结了我们的发现，并围绕表格表示学习的开放挑战和未来机会进行了讨论。

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【斯坦福博士论文】超越文本：深度学习信号数据处理，152页pdf

专知会员服务

42+阅读 · 2024年3月29日

【MIT博士论文】高效可靠深度学习的共形方法，213页pdf

专知会员服务

42+阅读 · 2023年11月12日

【MIT博士论文】从未整理数据中的鲁棒学习，220页pdf

专知会员服务

55+阅读 · 2023年11月10日

【普林斯顿博士论文】高维强化学习与最优控制问题，121页pdf

专知会员服务

50+阅读 · 2023年7月25日