Many clustering algorithms are guided by certain cost functions such as the widely-used $k$-means cost. These algorithms divide data points into clusters with often complicated boundaries, creating difficulties in explaining the clustering decision. In a recent work, Dasgupta, Frost, Moshkovitz, and Rashtchian (ICML 2020) introduced explainable clustering, where the cluster boundaries are axis-parallel hyperplanes and the clustering is obtained by applying a decision tree to the data. The central question here is: how much does the explainability constraint increase the value of the cost function? Given $d$-dimensional data points, we show an efficient algorithm that finds an explainable clustering whose $k$-means cost is at most $k^{1 - 2/d}\,\mathrm{poly}(d\log k)$ times the minimum cost achievable by a clustering without the explainability constraint, assuming $k,d\ge 2$. Taking the minimum of this bound and the $k\,\mathrm{polylog} (k)$ bound in independent work by Makarychev-Shan (ICML 2021), Gamlath-Jia-Polak-Svensson (2021), or Esfandiari-Mirrokni-Narayanan (2021), we get an improved bound of $k^{1 - 2/d}\,\mathrm{polylog}(k)$, which we show is optimal for every choice of $k,d\ge 2$ up to a poly-logarithmic factor in $k$. For $d = 2$ in particular, we show an $O(\log k\log\log k)$ bound, improving near-exponentially over the previous best bound of $O(k\log k)$ by Laber and Murtinho (ICML 2021).


翻译:许多群集算法以某些成本函数为指导, 如广泛使用的 $k$- 平均成本 。 这些算法将数据点分为往往复杂、 难以解释群集决定的群集 。 在最近的一项工作中, Dasgupta、 Frost、 Moshhokovitz 和 Rashtchian (ICML 2020) 引入了可解释的群集, 群集边界是轴- 双极超机, 集群是通过对数据应用决定树来获得的 。 这里的中心问题是 : 可解释性限制能增加成本函数的值有多大? 鉴于 $d- 平面数据点, 我们展示一个高效的算法, 找到一个可以解释的群集, 其美元平均成本最多为 $k+1 - 2/ d ⁇, most\ mathrik 。 假设是 $k, dgeo, 20, 和 malk- mol- max, 以 美元( 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元- 美元-

0
下载
关闭预览

相关内容

专知会员服务
14+阅读 · 2021年5月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
6+阅读 · 2018年12月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
0+阅读 · 2022年1月10日
Arxiv
0+阅读 · 2022年1月3日
Arxiv
3+阅读 · 2017年12月14日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年5月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
相关资讯
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
6+阅读 · 2018年12月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员