【AAAI2021】从类表单文档中提取零样本结构化信息:使用键和触发器进行预训练 - 专知VIP

会员服务 ·

0

AAAI 2021 · 结构化 ·

2021 年 2 月 4 日

【AAAI2021】从类表单文档中提取零样本结构化信息:使用键和触发器进行预训练

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文旨在从表单文档中提取零样本的结构化信息。与传统的文档结构话信息提取的不同在于，对于指定的键，零样本学习在训练集中不需要存在其对应的训练数据，而在预测过程中，根据键的文本描述直接在文档中寻找该键对应的目标值。零样本结构化信息提取使得模型可以预测数量庞大的键对应的值而不需要额外的标注数据。为了达到这个目的，本文提出键和触发词可感应的基于Transformer框架的两阶段模型（KATA）。第一阶段根据键的描述在文档中寻找对应的触发词；第二阶段根据触发词在文档中预测对应的目标值。为了提升模型的泛化能力，在大量的维基百科数据上进行预训练。最终在两个微调数据集上进行测试，英文数据集和中文数据集分别获得0.73和0.71左右的F1值。实验结果表明，本文提出的KATA模型能一定程度上能提取零样本结构化信息。

https://www.aaai.org/AAAI21Papers/AAAI-2758.CaoR.pdf

成为VIP会员查看完整内容

8

相关内容

AAAI 2021

【AAAI2021】预训练用户表示提升推荐

【AAAI2021】预训练用户表示提升推荐

专知会员服务

44+阅读 · 2021年2月8日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【WSDM2021】弱监督下的分层元数据感知文档分类

【WSDM2021】弱监督下的分层元数据感知文档分类

专知会员服务

11+阅读 · 2020年11月16日

【EMNLP2020】利用文本和一阶逻辑中的声明知识进行细粒度的宣传手段检测

【EMNLP2020】利用文本和一阶逻辑中的声明知识进行细粒度的宣传手段检测

专知会员服务

13+阅读 · 2020年9月19日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ACL2020】端到端语音翻译的课程预训练

【ACL2020】端到端语音翻译的课程预训练

专知会员服务

6+阅读 · 2020年7月2日

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

专知会员服务

20+阅读 · 2020年7月1日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

哈工大SCIR

10+阅读 · 2019年11月18日

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

开放知识图谱

26+阅读 · 2019年11月8日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大SCIR

13+阅读 · 2019年8月20日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

论文浅尝 | 基于知识库的神经网络问题生成方法

论文浅尝 | 基于知识库的神经网络问题生成方法

开放知识图谱

19+阅读 · 2019年6月21日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

68+阅读 · 2019年5月17日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

已删除

生物探索

3+阅读 · 2018年2月10日

Cross-Task Instance Representation Interactions and Label Dependencies for Joint Information Extraction with Graph Convolutional Networks

Arxiv

1+阅读 · 2021年3月26日

M6: A Chinese Multimodal Pretrainer

Arxiv

8+阅读 · 2021年3月2日

Kernel Graph Attention Network for Fact Verification

Kernel Graph Attention Network for Fact Verification

Arxiv

3+阅读 · 2019年10月23日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

Enriching BERT with Knowledge Graph Embeddings for Document Classification

Arxiv

6+阅读 · 2019年9月18日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

Semi-Supervised Graph Embedding for Multi-Label Graph Node Classification

Semi-Supervised Graph Embedding for Multi-Label Graph Node Classification

Arxiv

5+阅读 · 2019年7月12日

Deep Node Ranking: an Algorithm for Structural Network Embedding and End-to-End Classification

Deep Node Ranking: an Algorithm for Structural Network Embedding and End-to-End Classification

Arxiv

3+阅读 · 2019年3月13日

VIP会员

相关主题

相关VIP内容

【AAAI2021】预训练用户表示提升推荐

【AAAI2021】预训练用户表示提升推荐

专知会员服务

44+阅读 · 2021年2月8日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知会员服务

74+阅读 · 2021年1月25日

【WSDM 2021】面向信息检索的预训练语言模型

专知会员服务

36+阅读 · 2020年11月29日

【WSDM2021】弱监督下的分层元数据感知文档分类

【WSDM2021】弱监督下的分层元数据感知文档分类

专知会员服务

11+阅读 · 2020年11月16日

【EMNLP2020】利用文本和一阶逻辑中的声明知识进行细粒度的宣传手段检测

【EMNLP2020】利用文本和一阶逻辑中的声明知识进行细粒度的宣传手段检测

专知会员服务

13+阅读 · 2020年9月19日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ACL2020】端到端语音翻译的课程预训练

【ACL2020】端到端语音翻译的课程预训练

专知会员服务

6+阅读 · 2020年7月2日

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

【ICML2020-Google】预训练提取的空白句子以便进行抽象摘要

专知会员服务

20+阅读 · 2020年7月1日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

哈工大SCIR

10+阅读 · 2019年11月18日

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

论文浅尝 | 探索将预训练语言模型用于事件抽取和事件生成

开放知识图谱

26+阅读 · 2019年11月8日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大SCIR

13+阅读 · 2019年8月20日

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

雷锋网

10+阅读 · 2019年6月27日

论文浅尝 | 基于知识库的神经网络问题生成方法

论文浅尝 | 基于知识库的神经网络问题生成方法

开放知识图谱

19+阅读 · 2019年6月21日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

68+阅读 · 2019年5月17日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

已删除

生物探索

3+阅读 · 2018年2月10日

相关论文

Cross-Task Instance Representation Interactions and Label Dependencies for Joint Information Extraction with Graph Convolutional Networks

Arxiv

1+阅读 · 2021年3月26日

M6: A Chinese Multimodal Pretrainer

Arxiv

8+阅读 · 2021年3月2日

Kernel Graph Attention Network for Fact Verification

Kernel Graph Attention Network for Fact Verification

Arxiv

3+阅读 · 2019年10月23日

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

Arxiv

11+阅读 · 2019年9月23日

Enriching BERT with Knowledge Graph Embeddings for Document Classification

Arxiv

6+阅读 · 2019年9月18日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

Semi-Supervised Graph Embedding for Multi-Label Graph Node Classification

Semi-Supervised Graph Embedding for Multi-Label Graph Node Classification

Arxiv

5+阅读 · 2019年7月12日

Deep Node Ranking: an Algorithm for Structural Network Embedding and End-to-End Classification

Deep Node Ranking: an Algorithm for Structural Network Embedding and End-to-End Classification

Arxiv

3+阅读 · 2019年3月13日

微信扫码咨询专知VIP会员