【UCSD博士论文】衔接语言模型与结构化知识：抽取、表示与推理

结构化知识广泛存在于文档图像、网页及表格数据中，对语言模型提出了独特挑战。不同于自由文本，结构化数据通过空间布局、层次结构与关系依赖来表达语义，要求模型不仅能处理语言信号，还需具备抽取、理解与推理结构化内容的能力。

本论文致力于推动语言模型与结构化知识的融合，围绕文档理解、网页挖掘与表格推理，提出了一系列创新方法：

首先，我们提出了 VRDU ——一个用于富视觉文档理解（Visually-Rich Document Understanding）的基准数据集，旨在评估模型如何从具有复杂布局和层次实体的商业文档中抽取结构化信息。VRDU识别了模板泛化与小样本自适应中的关键挑战，为多模态语言模型提供了更现实的评估标准。其次，我们引入了 LASER，一种面向小样本实体识别的标签感知序列到序列框架。该方法将标签语义与空间关系直接嵌入解码过程，使模型能够在监督信号极少的情况下识别文档图像中的实体，在低资源场景下优于传统的序列标注方法。在网页挖掘方面，我们提出了 ReXMiner，一个零样本关系抽取框架，能够捕捉半结构化网页中的结构依赖关系。ReXMiner 通过在DOM树中编码相对XML路径，有效提升了关系抽取在不同网页模板上的泛化能力，验证了结构信号对于网页信息抽取的重要价值。最后，我们提出了 CHAIN-OF-TABLE框架，用于基于表格的数据推理，通过迭代表格变换以实现动态推理。区别于将表格视为静态输入的以往方法，CHAIN-OF-TABLE 支持结构化转化过程中的逐步推理，在多个表格问答与事实验证任务上达到了最新的性能表现。综合来看，本论文重新定义了语言模型与结构化知识的交互方式，填补了非结构化文本处理与结构化数据推理之间的鸿沟。通过融合多模态信号、关系结构与迭代推理机制，本研究为构建更加稳健与具备泛化能力的结构化知识理解模型奠定了理论与方法基础。

成为VIP会员查看完整内容

相关内容

博士论文

关注 114

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【NTU博士论文】当深度学习遇上归纳逻辑程序设计

专知会员服务

22+阅读 · 5月6日

【MIT博士论文】迈向人工神经科学：语言模型可解释性分析方法

专知会员服务

21+阅读 · 4月1日

【CUHK博士论文】大规模3D神经形状建模：表示、生成与可控性

专知会员服务

18+阅读 · 1月29日

【CMU博士论文】学习匹配模型

专知会员服务

28+阅读 · 2024年12月17日