This paper presents noise-robust clustering techniques in unsupervised machine learning. The uncertainty about the noise, consistency, and other ambiguities can become severe obstacles in data analytics. As a result, data quality, cleansing, management, and governance remain critical disciplines when working with Big Data. With this complexity, it is no longer sufficient to treat data deterministically as in a classical setting, and it becomes meaningful to account for noise distribution and its impact on data sample values. Classical clustering methods group data into "similarity classes" depending on their relative distances or similarities in the underlying space. This paper addressed this problem via the extension of classical $K$-means and $K$-medoids clustering over data distributions (rather than the raw data). This involves measuring distances among distributions using two types of measures: the optimal mass transport (also called Wasserstein distance, denoted $W_2$) and a novel distance measure proposed in this paper, the expected value of random variable distance (denoted ED). The presented distribution-based $K$-means and $K$-medoids algorithms cluster the data distributions first and then assign each raw data to the cluster of data's distribution.


翻译:本文介绍了在不受监督的机器学习过程中的噪音- 有机热聚变技术。 噪音、 一致性和其他模糊性方面的不确定性可能成为数据分析中的严重障碍。 因此, 数据质量、 清理、 管理和治理仍然是与大数据合作的关键学科。 如此复杂, 不再足以像古典环境那样对数据进行决定性的处理, 也不足以考虑噪音分布及其对数据样本值的影响 。 经典集束方法将数据分组数据分为“ 相近类 ”, 取决于其相对距离或基础空间的相似性 。 本文通过经典 $ 平均值和 $ 美元 类集成数据分布( 而不是原始数据 ) 来解决这个问题 。 这涉及使用两种措施衡量分布之间的距离: 最佳大众运输( 也称为 瓦塞斯坦 距离, 注意 $_ 2 ), 以及本文中提议的新的距离测量标准, 随机可变距离的预期值( 注意 ED ) 。 本文通过基于 发行的 $ K 比例 和 $ $ 美元 基 基 类组数 数据 分配数据 向原始数据分组 分配 。

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
专知会员服务
52+阅读 · 2020年9月7日
专知会员服务
17+阅读 · 2020年9月6日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
CCF推荐 | 国际会议信息8条
Call4Papers
9+阅读 · 2019年5月23日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
3+阅读 · 2018年3月13日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
0+阅读 · 2021年12月16日
Arxiv
0+阅读 · 2021年12月16日
Arxiv
12+阅读 · 2021年10月22日
Arxiv
31+阅读 · 2020年9月21日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
VIP会员
相关资讯
CCF推荐 | 国际会议信息8条
Call4Papers
9+阅读 · 2019年5月23日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
3+阅读 · 2018年3月13日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
相关论文
Arxiv
0+阅读 · 2021年12月16日
Arxiv
0+阅读 · 2021年12月16日
Arxiv
12+阅读 · 2021年10月22日
Arxiv
31+阅读 · 2020年9月21日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Clustered Object Detection in Aerial Images
Arxiv
5+阅读 · 2019年8月27日
Top
微信扫码咨询专知VIP会员