结构化知识广泛存在于文档图像、网页及表格数据中,对语言模型提出了独特挑战。不同于自由文本,结构化数据通过空间布局、层次结构与关系依赖来表达语义,要求模型不仅能处理语言信号,还需具备抽取、理解与推理结构化内容的能力。
本论文致力于推动语言模型与结构化知识的融合,围绕文档理解、网页挖掘与表格推理,提出了一系列创新方法:
首先,我们提出了 VRDU ——一个用于富视觉文档理解(Visually-Rich Document Understanding)的基准数据集,旨在评估模型如何从具有复杂布局和层次实体的商业文档中抽取结构化信息。VRDU识别了模板泛化与小样本自适应中的关键挑战,为多模态语言模型提供了更现实的评估标准。 其次,我们引入了 LASER,一种面向小样本实体识别的标签感知序列到序列框架。该方法将标签语义与空间关系直接嵌入解码过程,使模型能够在监督信号极少的情况下识别文档图像中的实体,在低资源场景下优于传统的序列标注方法。 在网页挖掘方面,我们提出了 ReXMiner,一个零样本关系抽取框架,能够捕捉半结构化网页中的结构依赖关系。ReXMiner 通过在DOM树中编码相对XML路径,有效提升了关系抽取在不同网页模板上的泛化能力,验证了结构信号对于网页信息抽取的重要价值。 最后,我们提出了 CHAIN-OF-TABLE框架,用于基于表格的数据推理,通过迭代表格变换以实现动态推理。区别于将表格视为静态输入的以往方法,CHAIN-OF-TABLE 支持结构化转化过程中的逐步推理,在多个表格问答与事实验证任务上达到了最新的性能表现。 综合来看,本论文重新定义了语言模型与结构化知识的交互方式,填补了非结构化文本处理与结构化数据推理之间的鸿沟。通过融合多模态信号、关系结构与迭代推理机制,本研究为构建更加稳健与具备泛化能力的结构化知识理解模型奠定了理论与方法基础。