外部线数据数据自我预测概率主要组成部分分析 (Self-Paced Probabilistic Principal Component Analysis for Data with Outliers)

Principal Component Analysis (PCA) is a popular tool for dimensionality reduction and feature extraction in data analysis. There is a probabilistic version of PCA, known as Probabilistic PCA (PPCA). However, standard PCA and PPCA are not robust, as they are sensitive to outliers. To alleviate this problem, this paper introduces the Self-Paced Learning mechanism into PPCA, and proposes a novel method called Self-Paced Probabilistic Principal Component Analysis (SP-PPCA). Furthermore, we design the corresponding optimization algorithm based on the alternative search strategy and the expectation-maximization algorithm. SP-PPCA looks for optimal projection vectors and filters out outliers iteratively. Experiments on both synthetic problems and real-world datasets clearly demonstrate that SP-PPCA is able to reduce or eliminate the impact of outliers.

翻译：主要组成部分分析(PCA)是数据分析中减少维度和特征提取的流行工具,有一个称为概率五氯苯甲醚(PPCA)的概率版,然而,标准五氯苯甲醚和PPCA并不健全,因为它们对外部线敏感。为缓解这一问题,本文件将自制学习机制引入PPCA, 并提议一种称为自制概率主要组成部分分析(SP-PPCA)的新方法。此外,我们根据替代搜索战略和预期最大化算法设计相应的优化算法。SP-PPCA寻求最佳投影矢量和过滤器的迭接法。关于合成问题和真实世界数据集的实验清楚地表明SP-PPCA能够减少或消除外部线的影响。

相关内容

PCA

关注 3

在统计中，主成分分析（PCA）是一种通过最大化每个维度的方差来将较高维度空间中的数据投影到较低维度空间中的方法。给定二维，三维或更高维空间中的点集合，可以将“最佳拟合”线定义为最小化从点到线的平均平方距离的线。可以从垂直于第一条直线的方向类似地选择下一条最佳拟合线。重复此过程会产生一个正交的基础，其中数据的不同单个维度是不相关的。这些基向量称为主成分。

(普林斯顿讲义)：高维概率论，326页pdf《Probability in High Dimension》

专知会员服务

119+阅读 · 2020年5月30日

【经典书】数据挖掘：理论、算法与示例，347页pdf，Nong Ye，Arizona State University

专知会员服务

80+阅读 · 2020年2月27日

经典书《机器学习：概率视角》（Machine Learning: a Probabilistic Perspective）第二版Python代码，附1098页pdf下载

专知会员服务

253+阅读 · 2019年10月25日