We investigate a clustering problem with data from a mixture of Gaussians that share a common but unknown, and potentially ill-conditioned, covariance matrix. We start by considering Gaussian mixtures with two equally-sized components and derive a Max-Cut integer program based on maximum likelihood estimation. We prove its solutions achieve the optimal misclassification rate when the number of samples grows linearly in the dimension, up to a logarithmic factor. However, solving the Max-cut problem appears to be computationally intractable. To overcome this, we develop an efficient spectral algorithm that attains the optimal rate but requires a quadratic sample size. Although this sample complexity is worse than that of the Max-cut problem, we conjecture that no polynomial-time method can perform better. Furthermore, we gather numerical and theoretical evidence that supports the existence of a statistical-computational gap. Finally, we generalize the Max-Cut program to a $k$-means program that handles multi-component mixtures with possibly unequal weights. It enjoys similar optimality guarantees for mixtures of distributions that satisfy a transportation-cost inequality, encompassing Gaussian and strongly log-concave distributions.


翻译:我们从一个具有共同但未知且可能条件差的高斯人混合体的数据中调查一个组群问题。 我们首先考虑高斯混合体,其中含有两个同等大小的成分,然后根据最大可能性估计得出一个最大- Cut 整数程序。 我们证明,当样本数量在尺寸上线性增长时,其解决方案达到了最佳的分类率, 直至对数系数。 但是, 解决最大截断问题似乎在计算上难以解决。 为了克服这一点, 我们开发了一个高效的光谱算法, 该算法可以达到最佳速率, 但需要一个二次曲线样本大小。 尽管这种样本复杂性比最大切割问题要差, 但我们推测, 任何多球- 时间方法都不会有更好的效果。 此外, 我们收集数字和理论证据, 支持存在统计- 计算差距。 最后, 我们将 Max- Cut 程序推广到一个 $k- poke 比例程序, 处理可能不平等的多构件混合物。 它拥有类似的最佳性保证, 可以满足运输- 成本分布的混合, 包括高戈斯和逻辑分布。

0
下载
关闭预览

相关内容

【2020新书】Python文本分析,104页pdf
专知会员服务
96+阅读 · 2020年12月23日
专知会员服务
50+阅读 · 2020年12月14日
应用机器学习书稿,361页pdf
专知会员服务
57+阅读 · 2020年11月24日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月25日
Arxiv
0+阅读 · 2021年11月24日
Learning to Importance Sample in Primary Sample Space
Arxiv
3+阅读 · 2018年2月24日
Arxiv
5+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2014年10月9日
VIP会员
相关VIP内容
【2020新书】Python文本分析,104页pdf
专知会员服务
96+阅读 · 2020年12月23日
专知会员服务
50+阅读 · 2020年12月14日
应用机器学习书稿,361页pdf
专知会员服务
57+阅读 · 2020年11月24日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
lightgbm algorithm case of kaggle(上)
R语言中文社区
8+阅读 · 2018年3月20日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员