VIP内容

本文旨在从表单文档中提取零样本的结构化信息。与传统的文档结构话信息提取的不同在于,对于指定的键,零样本学习在训练集中不需要存在其对应的训练数据,而在预测过程中,根据键的文本描述直接在文档中寻找该键对应的目标值。零样本结构化信息提取使得模型可以预测数量庞大的键对应的值而不需要额外的标注数据。为了达到这个目的,本文提出键和触发词可感应的基于Transformer框架的两阶段模型(KATA)。第一阶段根据键的描述在文档中寻找对应的触发词;第二阶段根据触发词在文档中预测对应的目标值。为了提升模型的泛化能力,在大量的维基百科数据上进行预训练。最终在两个微调数据集上进行测试,英文数据集和中文数据集分别获得0.73和0.71左右的F1值。实验结果表明,本文提出的KATA模型能一定程度上能提取零样本结构化信息。

https://www.aaai.org/AAAI21Papers/AAAI-2758.CaoR.pdf

成为VIP会员查看完整内容
0
6
Top