无监督分词及词性归纳联合方法研究 - 专知基金

会员服务 ·

1

自然语言理解 ·

2013 年 12 月 31 日

无监督分词及词性归纳联合方法研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 无监督分词及词性归纳联合方法研究

项目编号： No.61303105

项目类型： 青年科学基金项目

立项/批准年度： 2014

项目学科： 自动化技术、计算机技术

项目作者： 王函石

作者单位： 首都师范大学

项目金额： 25万元

中文摘要： 无监督分词和词性归纳作为相继任务，是计算语言学中重要的研究课题，具有较高的理论研究价值和广阔的应用前景。本研究拟提出无监督分词及词性归纳相结合的联合方法，使分词和词性归纳两个不同层次的统计信息相互补充，以期同时提高两种不同处理在自然语言理解中的性能。本联合方法基于申请者先前提出的无监督分词方法和环境内聚思想，一方面通过获得基于语素及其类别的不针对特定语言的形态信息，以进一步提高处理精度，另一方面通过获得一词多类的归纳结果，以及利用全局统计特征分辨封闭词类与开放词类，以产生接近人工标准和便于人类理解的处理结果，通过提高评估成绩达到提升性能的目的。本研究成果将为构建包含语法归纳在内的更大规模的无监督联合方法奠定基础。

中文关键词： 自然语言理解；；；；

英文摘要： The unsupervised word segmentation and part-of-speech induction are two important tasks in computational linstuistics. In the project, we propose an unsupervised joint approach to word segmentation and part-of-speech induction. In the approach, the segmentation method of morphemes and words is based on the unsupervised approach to word segmentation early proposed by us, and the induction method of morpheme classes and word classes is based on the context cohesion mechanism early proposed by us. As an unsupervised approach, it can process data without any man-made lexicons, manually annotated corpora and language-specific prior knowledge. As a joint approach, it can utilize the structural information of word class sequences to enhance the quality of the unsupervised word segmentation, and then improve the performance of the word class induction by the enhancement. Besides the advantages mentioned above, the morphologic information derived from morpheme classes and word structures can further improve the performance of both the unsupervised word segmentation and the word class induction. In addition, the approach can produce the induction results that can be understood by humans to some extent by using the different statistical features between open-class words and closed-class words. In future, the approach will

英文关键词： natural language understanding；；；；

成为VIP会员查看完整内容

1

相关内容

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

专知会员服务

35+阅读 · 2021年12月17日

开放领域知识图谱问答研究综述

开放领域知识图谱问答研究综述

专知会员服务

64+阅读 · 2021年10月30日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

【NAACL2021-Google】通过词汇替换实现对多语言机器翻译的持续学习

专知会员服务

16+阅读 · 2021年3月14日

【文本分类大综述：从浅层到深度学习，35页pdf】

【文本分类大综述：从浅层到深度学习，35页pdf】

专知会员服务

188+阅读 · 2020年8月6日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知会员服务

178+阅读 · 2020年7月19日

基于深度神经网络的少样本学习综述

基于深度神经网络的少样本学习综述

专知会员服务

173+阅读 · 2020年4月22日

面向司法案件的案情知识图谱自动构建

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

【哈工大】基于抽取的高考作文生成

【哈工大】基于抽取的高考作文生成

专知会员服务

37+阅读 · 2020年3月10日

通用模型、全新框架，WavLM语音预训练模型全解

通用模型、全新框架，WavLM语音预训练模型全解

微软研究院AI头条

0+阅读 · 2021年12月23日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

图与推荐

0+阅读 · 2021年12月20日

哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO

哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO

哈工大SCIR

1+阅读 · 2021年10月25日

哈工大｜NLP数据增强方法？我有15种

哈工大｜NLP数据增强方法？我有15种

哈工大SCIR

1+阅读 · 2021年10月13日

开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset（CCKS2021）

开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset（CCKS2021）

开放知识图谱

1+阅读 · 2021年10月7日

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

机器之心

23+阅读 · 2019年6月21日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

哈工大SCIR

22+阅读 · 2018年6月12日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

面向机器翻译的多词表达语义分析及应用研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

汉英双语依存句法分析模型和算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

中文领域本体学习及半自动构建方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于翻译学习和核方法的中文模糊限制信息检测研究

国家自然科学基金

2+阅读 · 2012年12月31日

关键词抽取与社会标签推荐相结合的中文文本主题词自动标注方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于依存图的汉语依存分析技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

中文语义依存分析资源构建及分析技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

汉语语义知识获取与语义计算模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

中文句法分析与语义角色标注的联合学习机制研究

国家自然科学基金

1+阅读 · 2009年12月31日

Random Graphs by Product Random Measures

Arxiv

0+阅读 · 2022年4月20日

Two continuous (4, 5) pairs of explicit 9-stage Runge-Kutta methods

Arxiv

0+阅读 · 2022年4月19日

Cross-Lingual Phrase Retrieval

Arxiv

0+阅读 · 2022年4月19日

Learning to Retrieve Relevant Experiences for Motion Planning

Arxiv

0+阅读 · 2022年4月18日

Unsupervised Attention-based Sentence-Level Meta-Embeddings from Contextualised Language Models

Arxiv

0+阅读 · 2022年4月16日

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

Arxiv

0+阅读 · 2022年4月15日

Time Difference on Arrival Extraction from Two-Way Ranging

Arxiv

0+阅读 · 2022年4月12日

Directional Graph Networks

Directional Graph Networks

Arxiv

27+阅读 · 2020年12月10日

Contrastive Transformation for Self-supervised Correspondence Learning

Contrastive Transformation for Self-supervised Correspondence Learning

Arxiv

13+阅读 · 2020年12月9日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

自然语言理解

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】移动计算摄影的神经场表示

大语言模型遇见法律人工智能：综述

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

美军用无人地面战车发展：现代战争中超越弹药的多元应用

相关VIP内容

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

专知会员服务

35+阅读 · 2021年12月17日

开放领域知识图谱问答研究综述

开放领域知识图谱问答研究综述

专知会员服务

64+阅读 · 2021年10月30日

文本情感对话系统研究综述

专知会员服务

74+阅读 · 2021年5月21日

【NAACL2021-Google】通过词汇替换实现对多语言机器翻译的持续学习

专知会员服务

16+阅读 · 2021年3月14日

【文本分类大综述：从浅层到深度学习，35页pdf】

【文本分类大综述：从浅层到深度学习，35页pdf】

专知会员服务

188+阅读 · 2020年8月6日

实体关系抽取方法研究综述

实体关系抽取方法研究综述

专知会员服务

178+阅读 · 2020年7月19日

基于深度神经网络的少样本学习综述

基于深度神经网络的少样本学习综述

专知会员服务

173+阅读 · 2020年4月22日

面向司法案件的案情知识图谱自动构建

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

【哈工大】基于抽取的高考作文生成

【哈工大】基于抽取的高考作文生成

专知会员服务

37+阅读 · 2020年3月10日

相关资讯

通用模型、全新框架，WavLM语音预训练模型全解

通用模型、全新框架，WavLM语音预训练模型全解

微软研究院AI头条

0+阅读 · 2021年12月23日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

图与推荐

0+阅读 · 2021年12月20日

哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO

哈工大讯飞联合实验室发布少数民族多语言预训练模型CINO

哈工大SCIR

1+阅读 · 2021年10月25日

哈工大｜NLP数据增强方法？我有15种

哈工大｜NLP数据增强方法？我有15种

哈工大SCIR

1+阅读 · 2021年10月13日

开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset（CCKS2021）

开源开放 | 中文相对复杂词汇识别数据集RCWI-Dataset（CCKS2021）

开放知识图谱

1+阅读 · 2021年10月7日

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

中文最佳，哈工大讯飞联合发布全词覆盖中文BERT预训练模型

机器之心

23+阅读 · 2019年6月21日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

赛尔原创 | IJCAI 2018基于图结构的实体和关系联合抽取模型简介

哈工大SCIR

22+阅读 · 2018年6月12日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关基金

面向机器翻译的多词表达语义分析及应用研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

汉英双语依存句法分析模型和算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

中文领域本体学习及半自动构建方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于翻译学习和核方法的中文模糊限制信息检测研究

国家自然科学基金

2+阅读 · 2012年12月31日

关键词抽取与社会标签推荐相结合的中文文本主题词自动标注方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于依存图的汉语依存分析技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

中文语义依存分析资源构建及分析技术研究

国家自然科学基金

1+阅读 · 2011年12月31日

汉语语义知识获取与语义计算模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

中文句法分析与语义角色标注的联合学习机制研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Random Graphs by Product Random Measures

Arxiv

0+阅读 · 2022年4月20日

Two continuous (4, 5) pairs of explicit 9-stage Runge-Kutta methods

Arxiv

0+阅读 · 2022年4月19日

Cross-Lingual Phrase Retrieval

Arxiv

0+阅读 · 2022年4月19日

Learning to Retrieve Relevant Experiences for Motion Planning

Arxiv

0+阅读 · 2022年4月18日

Unsupervised Attention-based Sentence-Level Meta-Embeddings from Contextualised Language Models

Arxiv

0+阅读 · 2022年4月16日

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

On the Role of Pre-trained Language Models in Word Ordering: A Case Study with BART

Arxiv

0+阅读 · 2022年4月15日

Time Difference on Arrival Extraction from Two-Way Ranging

Arxiv

0+阅读 · 2022年4月12日

Directional Graph Networks

Directional Graph Networks

Arxiv

27+阅读 · 2020年12月10日

Contrastive Transformation for Self-supervised Correspondence Learning

Contrastive Transformation for Self-supervised Correspondence Learning

Arxiv

13+阅读 · 2020年12月9日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

微信扫码咨询专知VIP会员