共现潜在语义向量空间模型及其语义核的构建与应用研究 - 专知基金

会员服务 ·

0

语义关联 · 信息检索 ·

2015 年 12 月 31 日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

国家自然科学基金委员会

项目名称： 共现潜在语义向量空间模型及其语义核的构建与应用研究

项目编号： No.71503151

项目类型： 青年科学基金项目

立项/批准年度： 2016

项目学科： 管理科学

项目作者： 牛奉高

作者单位： 山西大学

项目金额： 17万元

中文摘要： 文本数据是当前大数据的时代的主要形式，对文本数据的挖掘成为信息获取和知识发现的重要途径。向量空间模型（VSM）为信息检索提供了非常好的解决方法，随着研究的深入，又出现了语义向量空间模型（SVSM）及类似模型，使检索效果和文本挖掘的效果更好。但依然存在不足：或者是向量表示中语义表现不够，或者是语义提取成本过高，或者是计算复杂度高。鉴于此，本人初步提出了共现潜在语义向量空间模型（CLSVSM），在文献聚类应用中，不仅降低了语义提取成本，还得到了较好的效果。但计算复杂度还是很高，而且不利于推广。语义核方法可以规范计算过程，降低复杂度，并可以推广应用，比如文本信息检索、分类、文献聚合、机器学习等领域。本项目拟在优化CLAVSM的基础上，采用语义核的思想，构建CLSVSM的语义核并应用于文献主题聚类中以检验其效果。

中文关键词： 文本挖掘；语义关联；知识发现；信息检索；文献聚合

英文摘要： The text data is currently the main form of the era of big data, and text data mining has become an important way of information access and knowledge discovery. Vector Space Model (VSM) provides a very good solution for information retrieval. with further research, there was a semantic vector space model (SVSM) and similar models, making retrieval and text mining results better. But still not enough: either a vector representation of semantic performance is not enough, or too costly to extract semantic, or high computational complexity. In view of this, I initially proposed co-occurrence latent semantic vector space model (CLSVSM). In the literature clustering, the model not only reduces the cost of semantic extraction, also got good results. However, the computational complexity is very high, and the model is not conductive to be used widly. Semantic kernel method can standardize the calculation process, reduce complexity, and can be extended applications, such as text information retrieval, classification, aggregation literature, machine learning and other fields. The project is planned on the basis of optimized CLAVSM, adopting semantic core idea, to build CLSVSM semantics kernal and applied to literature topic clustering to test its effectiveness.

英文关键词： Text mining;semantic association;knowledge discovery;Information retrieval;Literature aggregation

成为VIP会员查看完整内容

1

相关内容

语义关联

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

专知会员服务

24+阅读 · 2022年2月15日

面向知识图谱的图嵌入学习研究进展

面向知识图谱的图嵌入学习研究进展

专知会员服务

61+阅读 · 2021年11月3日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

基于深度学习的文本分类技术研究进展(中文版)，11页pdf

专知会员服务

61+阅读 · 2021年2月22日

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

27+阅读 · 2020年12月31日

基于深度学习的文本分类技术研究进展

专知会员服务

58+阅读 · 2020年12月6日

KDD20 | 主题模型在图模型中的应用专题

专知会员服务

31+阅读 · 2020年9月13日

【CIKM2020】通过意图描述生成进行查询理解

专知会员服务

21+阅读 · 2020年9月11日

基于多来源文本的中文医学知识图谱的构建

基于多来源文本的中文医学知识图谱的构建

专知会员服务

53+阅读 · 2020年8月21日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

专知

2+阅读 · 2022年2月15日

论文浅尝 | 面向开放域的无监督实体对齐

论文浅尝 | 面向开放域的无监督实体对齐

开放知识图谱

2+阅读 · 2021年8月24日

【论文笔记】韩家炜团队无监督主题分类构建法

【论文笔记】韩家炜团队无监督主题分类构建法

专知

11+阅读 · 2019年10月19日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

【论文笔记】用图卷积网络( GCN)来做语义角色标注

【论文笔记】用图卷积网络( GCN)来做语义角色标注

专知

61+阅读 · 2018年5月26日

赛尔原创 | 基于连通图的篇章级事件抽取与相关度计算

赛尔原创 | 基于连通图的篇章级事件抽取与相关度计算

哈工大SCIR

12+阅读 · 2018年4月23日

基于 word2vec 和 CNN 的文本分类：综述 & 实践

基于 word2vec 和 CNN 的文本分类：综述 & 实践

专知

18+阅读 · 2017年11月22日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

大规模知识图谱的构建、推理及应用

大规模知识图谱的构建、推理及应用

人工智能头条

15+阅读 · 2017年8月29日

基于内在与潜在语义特征的声音段落级语义识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

中文情感资源自动构建的关键技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

跨领域信息抽取方法及其在数字图书中的应用研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于语义相似度的古代散在针灸知识框架构建研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于叙事模式分析的无监督新闻事件语义抽取研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向文本信息安全的类别语义模型分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于复杂网络的中文文本语义相似度研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于语义网络的传统针灸概念体系表示及应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

篇章级中文语义分析理论与方法

国家自然科学基金

0+阅读 · 2011年12月31日

Web图像的语义表示及在聚类与排序中的应用

国家自然科学基金

1+阅读 · 2009年12月31日

Korean-English Machine Translation with Multiple Tokenization Strategy

Arxiv

0+阅读 · 2022年5月27日

Federated Non-negative Matrix Factorization for Short Texts Topic Modeling with Mutual Information

Federated Non-negative Matrix Factorization for Short Texts Topic Modeling with Mutual Information

Arxiv

0+阅读 · 2022年5月26日

Decoupled Pyramid Correlation Network for Liver Tumor Segmentation from CT images

Arxiv

0+阅读 · 2022年5月26日

Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation

Arxiv

11+阅读 · 2021年12月9日

AdaGCN: Adaboosting Graph Convolutional Networks into Deep Models

Arxiv

11+阅读 · 2019年8月14日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Linguistically-Informed Self-Attention for Semantic Role Labeling

Arxiv

17+阅读 · 2018年8月28日

Bayesian Convolutional Neural Networks

Arxiv

19+阅读 · 2018年6月27日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

阅读: 0 点赞: 0

小贴士

登录享主题订阅及个性化推荐

相关主题

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关VIP内容

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

专知会员服务

24+阅读 · 2022年2月15日

面向知识图谱的图嵌入学习研究进展

面向知识图谱的图嵌入学习研究进展

专知会员服务

61+阅读 · 2021年11月3日

概率主题模型综述

专知会员服务

36+阅读 · 2021年6月16日

基于深度学习的文本分类技术研究进展(中文版)，11页pdf

专知会员服务

61+阅读 · 2021年2月22日

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

27+阅读 · 2020年12月31日

基于深度学习的文本分类技术研究进展

专知会员服务

58+阅读 · 2020年12月6日

KDD20 | 主题模型在图模型中的应用专题

专知会员服务

31+阅读 · 2020年9月13日

【CIKM2020】通过意图描述生成进行查询理解

专知会员服务

21+阅读 · 2020年9月11日

基于多来源文本的中文医学知识图谱的构建

基于多来源文本的中文医学知识图谱的构建

专知会员服务

53+阅读 · 2020年8月21日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

相关资讯

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

AAAI2022 | 因果推理下的词向量：降低性别偏见并保留语义信息

专知

2+阅读 · 2022年2月15日

论文浅尝 | 面向开放域的无监督实体对齐

论文浅尝 | 面向开放域的无监督实体对齐

开放知识图谱

2+阅读 · 2021年8月24日

【论文笔记】韩家炜团队无监督主题分类构建法

【论文笔记】韩家炜团队无监督主题分类构建法

专知

11+阅读 · 2019年10月19日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

【论文笔记】用图卷积网络( GCN)来做语义角色标注

【论文笔记】用图卷积网络( GCN)来做语义角色标注

专知

61+阅读 · 2018年5月26日

赛尔原创 | 基于连通图的篇章级事件抽取与相关度计算

赛尔原创 | 基于连通图的篇章级事件抽取与相关度计算

哈工大SCIR

12+阅读 · 2018年4月23日

基于 word2vec 和 CNN 的文本分类：综述 & 实践

基于 word2vec 和 CNN 的文本分类：综述 & 实践

专知

18+阅读 · 2017年11月22日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

大规模知识图谱的构建、推理及应用

大规模知识图谱的构建、推理及应用

人工智能头条

15+阅读 · 2017年8月29日

相关基金

基于内在与潜在语义特征的声音段落级语义识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

中文情感资源自动构建的关键技术研究

国家自然科学基金

2+阅读 · 2013年12月31日

跨领域信息抽取方法及其在数字图书中的应用研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于语义相似度的古代散在针灸知识框架构建研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于叙事模式分析的无监督新闻事件语义抽取研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向文本信息安全的类别语义模型分类方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于复杂网络的中文文本语义相似度研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于语义网络的传统针灸概念体系表示及应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

篇章级中文语义分析理论与方法

国家自然科学基金

0+阅读 · 2011年12月31日

Web图像的语义表示及在聚类与排序中的应用

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

Korean-English Machine Translation with Multiple Tokenization Strategy

Arxiv

0+阅读 · 2022年5月27日

Federated Non-negative Matrix Factorization for Short Texts Topic Modeling with Mutual Information

Federated Non-negative Matrix Factorization for Short Texts Topic Modeling with Mutual Information

Arxiv

0+阅读 · 2022年5月26日

Decoupled Pyramid Correlation Network for Liver Tumor Segmentation from CT images

Arxiv

0+阅读 · 2022年5月26日

Knowledge Distillation for Object Detection via Rank Mimicking and Prediction-guided Feature Imitation

Arxiv

11+阅读 · 2021年12月9日

AdaGCN: Adaboosting Graph Convolutional Networks into Deep Models

Arxiv

11+阅读 · 2019年8月14日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Linguistically-Informed Self-Attention for Semantic Role Labeling

Arxiv

17+阅读 · 2018年8月28日

Bayesian Convolutional Neural Networks

Arxiv

19+阅读 · 2018年6月27日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

微信扫码咨询专知VIP会员