上海大学建了一个“突发事件语料库”,包括地震、恐怖袭击等5大类

2018 年 5 月 5 日 AI100 聚焦AI的

(来源:上海大学官网)


作者 | 阿司匹林

出品 | AI科技大本营(公众号ID:rgznai100)


本体最初是一个哲学上的概念,十多年前被引入计算机领域中作为知识表示的方法并被广泛使用。本体对于探索人的认知原理、发展自然语言理解技术和人机交互技术有重要意义。


要理解这些话语文本, 就必须知道这些事件类丰富的内容, 这些内容的绝大部分是不可能在话语文本中叙述的, 而是作为共同知识预先存在于每个交流者的头脑中。事件本体正是为计算机建造这样的共同知识。


研究本体,必然要先构建语料库。


几年前,上海大学语义智能实验室为了开展文本事件抽取和事件关系的抽取实验,创建了中文突发事件语料库(Chinese Emergency Corpus,CEC)。


GitHub 地址:

https://github.com/shijiebei2009/CEC-Corpus


根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,上海大学语义智能实验室从互联网上收集了 5 类(地震、火灾、交通事故、恐怖袭击和食物中毒)突发事件的新闻报道作为生语料,然后再对生语料进行文本预处理、文本分析、事件标注以及一致性检查等处理,最后将标注结果保存到语料库中,CEC 合计 332 篇。





CEC 采用了 XML 语言作为标注格式,其中包含了六个最重要的数据结构(标记):Event、Denoter、Time、Location、Participant 和 Object。Event用于描述事件;Denoter、Time、Location、Participant 和 Object 用于描述事件的指示词和要素。此外,我们还为每一个标记定义了与之相关的属性。与 ACE 和 TimeBank 语料库相比,CEC 语料库的规模虽然偏小,但是对事件和事件要素的标注却最为全面。

主要标签图结构图


据介绍,这个语料库是包括刘炜(上海大学计算机学院副研究员)、王旭(上海大学硕士研究生,已毕业)等在内的课题组师生,多年手工标注并不断打磨的成果。


不过,这个项目在 GitHub 上的最后更新时间是 2015 年。为了了解 CEC 的最新进展,营长联系上了项目组成员之一:上海大学计算机学院副研究员——刘炜。


1)CEC 项目目前有什么最新进展?


刘炜:近期没有更新,目前我们的工作主要在事件本体构建平台的开发,后面我们可能会针对事件本体构建的新需求以及我们这两年的工作积累再新增一些事件语料。


2)这个项目的出发点是什么?主要有什么用途?


刘炜:主要是用于之前我们开展的文本事件抽取和事件关系的抽取实验用。事件本体就是一个由事件类构成的用来描述事件知识的表示模型。事件类也叫事件概念,在事件本体中,事件类之间会存在一些语义关系。比如我们构建的地震事件本体,它会有地震、抢险、救援、医疗救助、灾害评估、赈灾等一系列事件类,同时这些事件类之间会存在因果、并发、顺序等语义关系。


另外,我们想用这些语料验证我们提出的事件六要素(人物,动作,地点,时间,状态,语言描述)表示模型,为一些研究人员研究文本事件处理算法提供实验数据。


3)能介绍下“事件本体构建平台”吗?


刘炜:事件本体构建平台就是一个建模工具,用来建立事件本体模型,这个模型有点像 UML 模型。我们做成了一个基于 Web 的,可支持协同建模的平台工具。它和语料库没有直接的关系,但都是我们研究事件本体的重要工作部分。


参考资料:https://blog.csdn.net/shijiebei2009/article/details/44538257——王旭


招聘

AI科技大本营现招聘AI记者和资深编译,有意者请将简历投至:gulei@csdn.net,期待你的加入

AI科技大本营读者群(计算机视觉、机器学习、深度学习、NLP、Python、AI硬件、AI+金融、AI+PM方向)正在招募中,和你志同道合的小伙伴也在这里!关注AI科技大本营微信公众号,后台回复:读者群,添加营长请务必备注姓名,研究方向。

AI科技大本营
公众号ID:rgznai100


☟☟☟点击 | 阅读原文 | 查看更多精彩内容

登录查看更多
1

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
【CVPR2020】时序分组注意力视频超分
专知会员服务
30+阅读 · 2020年7月1日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
26+阅读 · 2020年3月18日
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
187+阅读 · 2020年1月17日
 【中科院信工所】社交媒体情感分析,40页ppt
专知会员服务
94+阅读 · 2019年12月13日
领域应用 | HiTA知识图谱 “药品-适应证”图谱数据发布!
事理图谱:事件演化的规律和模式
哈工大SCIR
34+阅读 · 2019年7月19日
技术动态 | 知识图谱的策展
开放知识图谱
4+阅读 · 2019年7月8日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
CCF@U: 刘挺、秦兵走进天津大学
中国计算机学会
4+阅读 · 2018年11月20日
CNCC2017技术论坛 | 知识图谱遇见社交媒体
中国计算机学会
7+阅读 · 2017年11月8日
Arxiv
9+阅读 · 2019年11月6日
VIP会员
相关资讯
领域应用 | HiTA知识图谱 “药品-适应证”图谱数据发布!
事理图谱:事件演化的规律和模式
哈工大SCIR
34+阅读 · 2019年7月19日
技术动态 | 知识图谱的策展
开放知识图谱
4+阅读 · 2019年7月8日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
67+阅读 · 2019年5月17日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
CCF@U: 刘挺、秦兵走进天津大学
中国计算机学会
4+阅读 · 2018年11月20日
CNCC2017技术论坛 | 知识图谱遇见社交媒体
中国计算机学会
7+阅读 · 2017年11月8日
Top
微信扫码咨询专知VIP会员