【KDD2022】海量文本语料库中的无监督关键事件检测 - 专知VIP

会员服务 ·

10

无监督事件检测 · 文本分类 · 预训练语言模型 · 短语提取 ·

2022 年 6 月 13 日

【KDD2022】海量文本语料库中的无监督关键事件检测

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

从新闻语料库中自动检测事件是挖掘快速进化的结构化知识的关键。由于现实世界的事件具有不同的粒度，从顶级主题到关键事件，再到与具体行动相对应的事件提及，通常有两种研究方向:(1)主题检测从新闻语料库中识别出主要主题(如“2019年香港抗议”vs.;“2020年美国总统选举”)，语义非常明确;(2)动作抽取(action extraction)从一个文档提及级别的动作(例如，“警察打了抗议者的左臂”)中提取，这些动作粒度太细，无法理解事件。在本文中，我们提出了一个新的任务，即中间层次的关键事件检测，旨在从一个新闻语料库中检测出发生在特定时间/地点、关注同一主题的关键事件(如“8月12-14日香港机场抗议”)。由于关键事件的主题和时间的紧密性，以及由于新闻文章的快速发展而导致标记数据的稀缺，这一任务可以将事件理解和结构连接起来，并且具有内在的挑战性。为了应对这些挑战，我们开发了一个无监督的关键事件检测框架EvMine，该框架(1)使用一种新的ttf-itf评分提取时间频繁的峰值短语，(2)通过从我们设计的峰值短语图中检测社区，将峰值短语合并到事件指示性特征集，该图捕捉文档共现、语义相似性和时间紧密性信号，(3)通过从事件指示性特征集自动生成伪标签训练分类器，并使用检索到的文档细化检测到的关键事件，迭代检索与每个关键事件相关的文档。大量的实验和案例研究表明，EvMine在两个真实世界的新闻语料库上优于所有的基线方法和它的改进。

https://arxiv.org/pdf/2206.04153.pdf

成为VIP会员查看完整内容

33

相关内容

无监督事件检测

无监督事件检测

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知会员服务

98+阅读 · 2021年12月30日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【KDD2021】知识增强领域自适应的少样本关系分类

专知会员服务

38+阅读 · 2021年9月15日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

【KDD2021】基于元神经过程网络的多模态突发性假新闻检测

专知会员服务

34+阅读 · 2021年6月29日

【AAAI2021】以事件为中心的自然语言理解，256页ppt

【AAAI2021】以事件为中心的自然语言理解，256页ppt

专知会员服务

74+阅读 · 2021年2月8日

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

专知会员服务

35+阅读 · 2020年5月1日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

WWW2022 | 推荐系统中的特征自动提取

WWW2022 | 推荐系统中的特征自动提取

图与推荐

1+阅读 · 2022年2月24日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知

6+阅读 · 2021年12月30日

EMNLP 2021 | 以对比损失为微调目标，UMass提出更强大的短语表示模型

EMNLP 2021 | 以对比损失为微调目标，UMass提出更强大的短语表示模型

PaperWeekly

0+阅读 · 2021年11月15日

面向Transformer模型的高效预训练方法

面向Transformer模型的高效预训练方法

哈工大SCIR

1+阅读 · 2021年6月5日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

39+阅读 · 2019年8月18日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

论文浅尝 | 使用循环神经网络的联合事件抽取

论文浅尝 | 使用循环神经网络的联合事件抽取

开放知识图谱

25+阅读 · 2019年4月28日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

社交网络中基于短文本的事件检测与分析理论及关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

互联网藏文文本资源挖掘及语料抽取关键技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于汉语话题的句际关系自动分析研究

国家自然科学基金

0+阅读 · 2012年12月31日

语义知识驱动的网络上下文广告投放高效方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向文本挖掘的特征选择关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向英汉双向跨语言图像检索的文本分析关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向网络舆论的动态本体学习模型研究

国家自然科学基金

4+阅读 · 2010年12月31日

基于跨媒体信息挖掘的网络舆情分析研究

国家自然科学基金

2+阅读 · 2009年12月31日

中文医学文本中关联信息提取方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

SimCURL: Simple Contrastive User Representation Learning from Command Sequences

Arxiv

0+阅读 · 2022年7月29日

Mining Cross-Person Cues for Body-Part Interactiveness Learning in HOI Detection

Mining Cross-Person Cues for Body-Part Interactiveness Learning in HOI Detection

Arxiv

0+阅读 · 2022年7月28日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Co-mining: Self-Supervised Learning for Sparsely Annotated Object Detection

Arxiv

13+阅读 · 2020年12月3日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

A Survey on Knowledge Graph-Based Recommender Systems

Arxiv

92+阅读 · 2020年2月28日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

BERT for Joint Intent Classification and Slot Filling

Arxiv

13+阅读 · 2019年2月28日

Knowledge-enriched Two-layered Attention Network for Sentiment Analysis

Arxiv

21+阅读 · 2018年5月25日

CoNet: Collaborative Cross Networks for Cross-Domain Recommendation

Arxiv

13+阅读 · 2018年4月20日

VIP会员

相关主题

无监督事件检测

预训练语言模型

相关VIP内容

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知会员服务

98+阅读 · 2021年12月30日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【KDD2021】知识增强领域自适应的少样本关系分类

专知会员服务

38+阅读 · 2021年9月15日

预训练模型如何用于文本挖掘？看这份KDD2021-UIUC《预训练文本表示:模型与应用在文本挖掘》教程，附200页Slides

专知会员服务

44+阅读 · 2021年8月18日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

【KDD2021】基于元神经过程网络的多模态突发性假新闻检测

专知会员服务

34+阅读 · 2021年6月29日

【AAAI2021】以事件为中心的自然语言理解，256页ppt

【AAAI2021】以事件为中心的自然语言理解，256页ppt

专知会员服务

74+阅读 · 2021年2月8日

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

专知会员服务

35+阅读 · 2020年5月1日

【WWW2020-推荐】医疗领域答案检索，基于上下文文档表示学习

专知会员服务

38+阅读 · 2020年2月18日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

最新万字长文 | 俄罗斯无人机创新或在乌克兰实现战场空中遮断效应

最新，DeepSeek-R1论文登上Nature封面，附83页补充材料

大型语言模型系统中提示缺陷的分类学

自动驾驶中的轨迹预测大型基础模型：全面综述

相关资讯

WWW2022 | 推荐系统中的特征自动提取

WWW2022 | 推荐系统中的特征自动提取

图与推荐

1+阅读 · 2022年2月24日

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

UIUC韩家炜：从海量非结构化文本中挖掘结构化知识

专知

6+阅读 · 2021年12月30日

EMNLP 2021 | 以对比损失为微调目标，UMass提出更强大的短语表示模型

EMNLP 2021 | 以对比损失为微调目标，UMass提出更强大的短语表示模型

PaperWeekly

0+阅读 · 2021年11月15日

面向Transformer模型的高效预训练方法

面向Transformer模型的高效预训练方法

哈工大SCIR

1+阅读 · 2021年6月5日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

39+阅读 · 2019年8月18日

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

【KDD2019知识图谱教程】从海量文本中挖掘和构建异构信息网络，UIUC232页ppt

专知

15+阅读 · 2019年8月11日

论文浅尝 | 使用循环神经网络的联合事件抽取

论文浅尝 | 使用循环神经网络的联合事件抽取

开放知识图谱

25+阅读 · 2019年4月28日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

相关基金

社交网络中基于短文本的事件检测与分析理论及关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

互联网藏文文本资源挖掘及语料抽取关键技术研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于汉语话题的句际关系自动分析研究

国家自然科学基金

0+阅读 · 2012年12月31日

语义知识驱动的网络上下文广告投放高效方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

面向文本挖掘的特征选择关键问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向英汉双向跨语言图像检索的文本分析关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向网络舆论的动态本体学习模型研究

国家自然科学基金

4+阅读 · 2010年12月31日

基于跨媒体信息挖掘的网络舆情分析研究

国家自然科学基金

2+阅读 · 2009年12月31日

中文医学文本中关联信息提取方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

相关论文

SimCURL: Simple Contrastive User Representation Learning from Command Sequences

Arxiv

0+阅读 · 2022年7月29日

Mining Cross-Person Cues for Body-Part Interactiveness Learning in HOI Detection

Mining Cross-Person Cues for Body-Part Interactiveness Learning in HOI Detection

Arxiv

0+阅读 · 2022年7月28日

Cross-Domain Few-Shot Graph Classification

Arxiv

13+阅读 · 2022年1月20日

Co-mining: Self-Supervised Learning for Sparsely Annotated Object Detection

Arxiv

13+阅读 · 2020年12月3日

Few-shot Learning for Multi-label Intent Detection

Arxiv

21+阅读 · 2020年10月11日

A Survey on Knowledge Graph-Based Recommender Systems

Arxiv

92+阅读 · 2020年2月28日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

BERT for Joint Intent Classification and Slot Filling

Arxiv

13+阅读 · 2019年2月28日

Knowledge-enriched Two-layered Attention Network for Sentiment Analysis

Arxiv

21+阅读 · 2018年5月25日

CoNet: Collaborative Cross Networks for Cross-Domain Recommendation

Arxiv

13+阅读 · 2018年4月20日

微信扫码咨询专知VIP会员