Traditionally, clustering algorithms focus on partitioning the data into groups of similar instances. The similarity objective, however, is not sufficient in applications where a fair-representation of the groups in terms of protected attributes like gender or race, is required for each cluster. Moreover, in many applications, to make the clusters useful for the end-user, a balanced cardinality among the clusters is required. Our motivation comes from the education domain where studies indicate that students might learn better in diverse student groups and of course groups of similar cardinality are more practical e.g., for group assignments.To this end, we introduce the fair-capacitated clustering problem that partitions the data into clusters of similar instances while ensuring cluster fairness and balancing cluster cardinalities. We propose a two-step solution to the problem: i) we rely on fairlets to generate minimal sets that satisfy the fair constraint and ii) we propose two approaches, namely hierarchical clustering and partitioning-based clustering, to obtain the fair-capacitated clustering. The hierarchical approach embeds the additional cardinality requirements during the merging step while the partitioning-based one alters the assignment step using a knapsack problem formulation to satisfy the additional requirements. Our experiments on four educational datasets show that our approaches deliver well-balanced clusters in terms of both fairness and cardinality while maintaining a good clustering quality.


翻译:传统上,集群算法侧重于将数据分成相似的情况组。不过,相似性的目标不足以满足每个组群在应用中要求各组群在性别或种族等受保护属性方面有公平代表性的要求。此外,在许多应用中,为使集群组群对最终用户有用,各组群之间需要有平衡的基点。我们的动机来自教育领域,研究显示,学生在不同的学生群体和相似的基点课程组群中可能学习得更好,例如,对于群体任务,这种类集法更切合实际。为此,我们引入公平能力组群问题,将数据分成相似的情况组群,同时确保集群公平性和平衡集群的基点。我们提出了解决问题的两步解决办法:(一) 我们依靠公平性组群集来创造最起码的组合,满足公平的制约;(二) 我们提出两种办法,即分级组群群和基于分区的集群,以获得公平能力的组合。分级法在合并阶段中包含了额外的基点要求,而基于分层组群群群群化的一组则用knapsackmack来改变指派步骤,同时确保集群的公平性和平衡性,同时在基础组群群集中展示我们关于良好质量要求的四项试验。

0
下载
关闭预览

相关内容

专知会员服务
56+阅读 · 2021年4月12日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
专知会员服务
66+阅读 · 2020年10月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
75+阅读 · 2020年7月26日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
35+阅读 · 2020年4月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月4日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Arxiv
0+阅读 · 2021年6月14日
Arxiv
0+阅读 · 2021年6月2日
Arxiv
1+阅读 · 2021年5月28日
Arxiv
8+阅读 · 2021年2月1日
Arxiv
31+阅读 · 2020年9月21日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
3+阅读 · 2017年5月14日
VIP会员
相关VIP内容
专知会员服务
56+阅读 · 2021年4月12日
【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
76+阅读 · 2021年1月30日
专知会员服务
66+阅读 · 2020年10月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
75+阅读 · 2020年7月26日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
【北京大学】面向5G的命名数据网络物联网研究综述
专知会员服务
35+阅读 · 2020年4月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
17+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年6月4日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
相关论文
Arxiv
0+阅读 · 2021年6月14日
Arxiv
0+阅读 · 2021年6月2日
Arxiv
1+阅读 · 2021年5月28日
Arxiv
8+阅读 · 2021年2月1日
Arxiv
31+阅读 · 2020年9月21日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
3+阅读 · 2017年5月14日
Top
微信扫码咨询专知VIP会员