In the application of data clustering to human-centric decision-making systems, such as loan applications and advertisement recommendations, the clustering outcome might discriminate against people across different demographic groups, leading to unfairness. A natural conflict occurs between the cost of clustering (in terms of distance to cluster centers) and the balance representation of all demographic groups across the clusters, leading to a bi-objective optimization problem that is nonconvex and nonsmooth. To determine the complete trade-off between these two competing goals, we design a novel stochastic alternating balance fair $k$-means (SAfairKM) algorithm, which consists of alternating classical mini-batch $k$-means updates and group swap updates. The number of $k$-means updates and the number of swap updates essentially parameterize the weight put on optimizing each objective function. Our numerical experiments show that the proposed SAfairKM algorithm is robust and computationally efficient in constructing well-spread and high-quality Pareto fronts both on synthetic and real datasets. Moreover, we propose a novel companion algorithm, the stochastic alternating bi-objective gradient descent (SA2GD) algorithm, which can handle a smooth version of the considered bi-objective fair $k$-means problem, more amenable for analysis. A sublinear convergence rate of $\mathcal{O}(1/T)$ is established under strong convexity for the determination of a stationary point of a weighted sum of the two functions parameterized by the number of steps or updates on each function.


翻译:在对以人为中心的决策系统(如贷款应用程序和广告建议)应用数据集群时,集群结果可能会对不同人口群体的人造成歧视,从而导致不公平。集群成本(从距离集群中心的距离来看)和所有人口群体在集群的均衡代表性之间自然发生冲突,导致两个目标优化问题,即非康维克斯和非毛线问题。为了确定这两个相互竞争的目标之间的完全取舍,我们设计了一个新型的随机交替平衡公平美元比值(SAfairKM)算法,其中包括交替的经典微型批量美元比值更新和群体互换更新。美元比值更新和互换更新的数量基本上将优化每个目标功能的权重参数。我们的数字实验表明,拟议的SAfairKM算法在合成和真实数据集上构建良好和高质量的Paretofront(SA2GD) 。此外,我们提议一种新型的伴配方算法,即每部平调的双向梯利调调调基调基调基调基数(SA2GGD),在稳定水平上可以处理一个平平调的平调的平调的平调的美元比数。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
105+阅读 · 2020年5月3日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
4+阅读 · 2017年7月7日
Arxiv
0+阅读 · 2021年7月20日
Arxiv
0+阅读 · 2021年7月20日
Arxiv
0+阅读 · 2021年7月20日
Arxiv
0+阅读 · 2021年7月15日
VIP会员
相关资讯
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
将门创投
4+阅读 · 2017年7月7日
Top
微信扫码咨询专知VIP会员