项目名称: 柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

项目编号: No.61462055

项目类型: 地区科学基金项目

立项/批准年度: 2015

项目学科: 计算机科学学科

项目作者: 严馨

作者单位: 昆明理工大学

项目金额: 44万元

中文摘要: 柬埔寨语语言信息处理研究非常薄弱,研究柬埔寨语命名实体识别对于今后的汉-柬双语理解研究工作具有重要的支撑作用。汉语-柬埔寨语双语语料资源构建是汉柬双语理解的必备资源。本课题根据柬埔寨语的特点,首先研究柬埔寨语分词、词性标注与命名实体标注规范,构建含50万单词的柬埔寨语词法标注语料库,在此基础上,根据柬埔寨语言学知识能很好地用一阶逻辑规则描述的特点,研究基于条件随机场与马尔科夫逻辑网双层模型的柬埔寨语命名实体识别方法,研究英语-柬埔寨语跨语言命名实体知识转移方法,引入跨语言特征以促进缺乏可区分特征的柬埔寨语命名实体识别工作。最后结合汉柬新闻网页主题相关、内容相近的特点,借助于知识词典,研究通过融合汉柬双语主题建模和增量聚类获取汉-柬双语可比较语料的方法。项目研究成果为柬埔寨语信息处理、汉语-柬埔寨语机器翻译提供底层支持和数据支撑。

中文关键词: 柬埔寨语-汉语;语料库;命名实体标注;命名实体识别;双语可比语料库

英文摘要: As the research on Khmer language processing is very weak,research on Khmer named entity recognition plays an important role in the future research of the understanding of Chinese-Khmer bilingual language.Based on the Khmer language characteristics, Firstly, study on the annotation specification of Khmer word segmentation,part-of-speech and named entity to build a 500000-word-sized Khmer tagged corpus,on the basis of which,study on the Khmer named entity recognition methods based on hierarchical hybrid model of conditional random field and Markov logic network according to the characteristic that Khmer linguistic knowledge can be characterized with first-order logic rules,and study on the English-Khmer cross-lingual named entity knowledge transfer methods to get cross-lingual feature for the purpose of improving Khmer named entity recognition which lacks good discriminating features. Finally,study Chinese-Khmer comparable corpora building methods combining bilingual topic model and incremental clustering by means of knowledge dictionary ,according to the characteristic of Khmer news Web pages have the similar topic and content to the Chinese ones.The research achievement of the project will supply basic support and corpus resources to Khmer language processing and Chinese-Khmer machine translation.

英文关键词: Khmer-Chinese;corpus;named entity tagging;named entity recognition;bilingual comparable corpus

成为VIP会员查看完整内容
0

相关内容

语料库是语料库语言学研究的基础资源,也是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。
顾及时空特征的地理知识图谱构建方法
专知会员服务
53+阅读 · 2022年2月15日
专知会员服务
67+阅读 · 2021年8月20日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
31+阅读 · 2020年9月2日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
138+阅读 · 2020年7月6日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
28+阅读 · 2020年4月12日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
【NER综述】近五年中文电子病历命名实体识别研究进展
深度学习自然语言处理
11+阅读 · 2020年8月24日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
一文读懂命名实体识别
人工智能头条
32+阅读 · 2019年3月29日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
【知识图谱】中文知识图谱构建方法研究
产业智能官
98+阅读 · 2017年10月26日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
小贴士
相关VIP内容
顾及时空特征的地理知识图谱构建方法
专知会员服务
53+阅读 · 2022年2月15日
专知会员服务
67+阅读 · 2021年8月20日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
31+阅读 · 2020年9月2日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
138+阅读 · 2020年7月6日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
28+阅读 · 2020年4月12日
知识图谱本体结构构建论文合集
专知会员服务
102+阅读 · 2019年10月9日
相关资讯
【NER综述】近五年中文电子病历命名实体识别研究进展
深度学习自然语言处理
11+阅读 · 2020年8月24日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
一文读懂命名实体识别
人工智能头条
32+阅读 · 2019年3月29日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
【知识图谱】中文知识图谱构建方法研究
产业智能官
98+阅读 · 2017年10月26日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员