随着自动化系统的发展,机器学习正日益融入决策过程,并在诸如简历筛选、投资组合配置、贷款风险评估和保险审批等应用中为人类决策者提供支持。在本论文中,我探讨了将机器学习与决策过程结合时所面临的各类挑战,重点关注数据偏差、鲁棒性、公平性、异构数据源以及面向决策的建模等问题。在每一章中,我从不同角度研究这些问题,并提出相应的定制算法加以解决。 论文的第一部分聚焦于面向决策的训练,即在预测模型训练过程中将最终决策结果纳入优化目标。研究表明,端到端学习问题的最优解对应于能引导至贝叶斯最优行为的预测结果。 第二部分则转向处理预测系统输出对人类生活产生实际影响的情形,特别是与公平性相关的问题。关于公平性的第一章研究了集中式环境下的群体公平(Group Fairness),并提出了一种包含无偏梯度估计的公平性正则项。这一方法简化了收敛速率和泛化误差界的构建,为在群体公平至关重要的现实应用中提供了一种可扩展的保障手段。 另一个与人类相关的数据问题是,出于隐私考虑,这些数据通常无法集中传输至服务器。第二章在此基础上,将公平学习方法扩展至联邦学习环境,其中不同客户端持有数据集的不同部分。基于函数追踪机制,该章节提出了一种适用于全局层面的群体公平性正则项,可与现有多数联邦学习算法结合使用,且在计算与通信开销方面要求较低。 论文的最后一部分再次回到决策问题,提出了一种方法,用于在目标领域中整合来自不同(可能存在偏差的)参考分布的信息以做出决策。该方法通过在各个参考分布周围构造最优传输球(Optimal Transport Balls),并对其交集进行优化,从而使决策者能够在所有参考分布一致的最坏情况分布下做出鲁棒决策。 关键词:机器学习、优化、面向决策的学习、公平学习、分布式鲁棒优化