项目名称: 面向社会化媒体异构大数据的快速组合聚类研究

项目编号: No.71471009

项目类型: 面上项目

立项/批准年度: 2015

项目学科: 管理科学

项目作者: 李红

作者单位: 北京航空航天大学

项目金额: 60万元

中文摘要: 聚类分析是数据挖掘的关键技术。近年来,随着社会化媒体的蓬勃发展,以用户生成内容为核心的复杂异构大数据不断涌现,其海量、高维、异质等特征,对传统聚类分析方法提出了严峻的挑战。本项目尝试采用组合聚类来解决这个问题。已有研究表明,组合聚类可以获得比传统聚类更好的分析结果,但现有研究仍缺乏系统性,算法效率低、鲁棒性差,因此无法应对复杂异构大数据。有鉴于此,本项目将聚焦于社会化媒体异构大数据的组合聚类研究,具体包括:1)将二元矩阵法的高效性和多效用函数的适应性结合起来,在广义K-均值理论基础上,建立快速组合聚类的理论框架;2)紧密结合社会化媒体异构大数据特征,研究样本划分方法和并行计算策略;3)提出基础聚类分量权重学习方法,并解决存在样本不一致和聚类指导信息时的算法设计问题;4)研发系统原型,并针对社会化媒体的用户分群问题展开应用研究。本项目将为社会化媒体大数据时代的商务智能理论与实践提供有益参考。

中文关键词: 组合聚类;聚类分析;社会化媒体;大数据;社会计算

英文摘要: Cluster analysis is one of the core techniques in data mining area. As online social media emerge in a dramatic speed, there is a growing need for heterogeneous big data clustering, especially for the high-profile user generated content (UGC). The huge volume, high dimensionality and heterogeneity of such data post severe challenges to the traditional clustering algorithms. Our project aims to deal with this problem in an ensemble clustering way. While some existing studies have shown the advantages of ensemble clustering over many traditional clustering methods, these studies yet lack of theoretical foundations, and the low efficiency and/or poor robustness of the proposed methods further prevent them from being used for big data analysis. In light of this, in this project, we focus on designing fast ensemble clustering method for heterogeneous big data analysis with applications in social media. Specifically, 1) we attempt to combine the high efficiency of binary matrix clustering with the flexibility of multiple utility functions, to build a theoretical framework for fast ensemble clustering based on the generalized K-means algorithm; 2) We will explore the sample partitioning schemes for ensemble clustering, and parallel the computing loads according to the characteristics of social media data; 3) We will investigate the method of weight learning for basic partitionings, and extend the fast ensemble clustering algorithm to the circumstances with incomplete basic partitionings and/or link constraints in a graph; 4) We will finally develop a prototypical system, which will then be used for social media user grouping to showcase its effectiveness. The outcomes of this project will provide great values in terms of both theories and practices to business intelligence in the big-data era.

英文关键词: Ensemble Clustering;Cluster Analysis;Social Media;Big Data;Social Computing

成为VIP会员查看完整内容
0

相关内容

聚类分析(Clustering)是无监督学习的一种,目的是将一组数据点分类,但没有训练数据集,区别于有监督的分类分析(Classification)。
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
「实体对齐」最新2022综述
专知会员服务
132+阅读 · 2022年3月15日
空天地一体化通信系统白皮书
专知会员服务
163+阅读 · 2022年2月26日
AAAI 2022 | 面向图数据的对抗鲁棒性研究
专知会员服务
20+阅读 · 2022年1月4日
专知会员服务
14+阅读 · 2021年6月26日
【WWW2021】兴趣感知消息传递图卷积神经网络的推荐
专知会员服务
44+阅读 · 2021年2月23日
专知会员服务
27+阅读 · 2021年2月17日
最新《图嵌入组合优化》综述论文,40页pdf
专知会员服务
33+阅读 · 2020年9月7日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
84+阅读 · 2020年4月23日
“热搜”中的分布式数据库 | Q推荐
InfoQ
0+阅读 · 2022年2月15日
AAAI 2022 | 面向图数据的对抗鲁棒性研究
专知
1+阅读 · 2022年1月4日
CIKM'21 | 自监督图神经网络在社会化推荐中的应用
图与推荐
3+阅读 · 2021年11月16日
最新《图嵌入组合优化》综述论文,40页pdf
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
小贴士
相关VIP内容
【CVPR2022】语言引导与基于视觉的深度度量学习的集成
专知会员服务
15+阅读 · 2022年3月17日
「实体对齐」最新2022综述
专知会员服务
132+阅读 · 2022年3月15日
空天地一体化通信系统白皮书
专知会员服务
163+阅读 · 2022年2月26日
AAAI 2022 | 面向图数据的对抗鲁棒性研究
专知会员服务
20+阅读 · 2022年1月4日
专知会员服务
14+阅读 · 2021年6月26日
【WWW2021】兴趣感知消息传递图卷积神经网络的推荐
专知会员服务
44+阅读 · 2021年2月23日
专知会员服务
27+阅读 · 2021年2月17日
最新《图嵌入组合优化》综述论文,40页pdf
专知会员服务
33+阅读 · 2020年9月7日
【国防科大】复杂异构数据的表征学习综述
专知会员服务
84+阅读 · 2020年4月23日
相关资讯
“热搜”中的分布式数据库 | Q推荐
InfoQ
0+阅读 · 2022年2月15日
AAAI 2022 | 面向图数据的对抗鲁棒性研究
专知
1+阅读 · 2022年1月4日
CIKM'21 | 自监督图神经网络在社会化推荐中的应用
图与推荐
3+阅读 · 2021年11月16日
最新《图嵌入组合优化》综述论文,40页pdf
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
基于二进制哈希编码快速学习的快速图像检索
极市平台
12+阅读 · 2018年5月17日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员