【斯坦福博士论文】以数据为中心的机器学习的理论和算法，209页pdf

机器学习（ML）和人工智能（AI）在各种领域取得了卓越的、超越人类水平的表现：计算机视觉、自然语言处理和蛋白质折叠等等。直到最近，大多数进展都采用了一种以模型为中心的方法，主要关注于改进神经网络架构（如ConvNets、ResNets、transformers等）以及用于训练这些模型的优化过程（如批归一化、丢弃、神经结构搜索等）。相对较少的注意力被付在了用于训练这些模型的数据上，尽管众所周知，ML在高质量数据上具有关键依赖性，用“垃圾进，垃圾出”这个短语来简洁地表达这一事实。随着越来越大型和更复杂的模型的回报逐渐减小（如Nvidia和微软的MT-NLG模型具有5300亿参数），研究人员开始意识到采取以数据为中心的方法以及开发研究这些模型的燃料——数据本身的原则性方法的重要性。

除了提高任务性能外，以数据为中心的视角还使我们能够考虑到社会关键因素，如数据隐私。在这篇论文中，我们将对ML数据管道中的几个关键点进行批判性审视：模型训练之前、期间和之后。在模型训练之前，我们将探讨数据选择的问题：应该使用哪些数据来训练模型，我们期望模型在什么类型的数据上工作？随着我们进入模型训练，我们将关注与我们的ML系统与其部署环境的交互作用可能导致的两个问题。第一个问题是数据隐私：我们如何防止我们的模型泄露有关其训练数据的敏感信息？第二个问题涉及某些被建模群体的动态性质。特别是当我们的模型用于做出对社会有影响的决策（如自动贷款批准或推荐系统）时，模型本身可能会影响数据的分布，从而导致性能下降。最后，尽管在模型训练之前和之间遵循最佳实践，但可能会出现我们希望在训练后删除某些数据影响的情况。如何以计算有效的方式实现这一点？这篇论文涵盖了每个前述问题的新颖解决方案，重点强调了每个提出的算法的可证保证。通过将数学严谨性应用于具有挑战性的现实问题，我们可以开发出既有效又可信赖的算法。

成为VIP会员查看完整内容

相关内容

斯坦福大学 (Stanford University)

关注 71

斯坦福大学（StanfordUniversity）位于加利福尼亚州，临近旧金山，占地35平方公里，是美国面积第二大的大学。它被公认为世界上最杰出的大学之一，相比美国东部的常春藤盟校，特别是哈佛大学、耶鲁大学，斯坦福大学虽然历史较短，但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的，美国最高法院的9个大法官，有6个是从斯坦福大学的法学院毕业的。

【华盛顿大学博士论文】透明机器学习：理论与计算，521页pdf

专知会员服务

73+阅读 · 2023年10月23日

【普林斯顿博士论文】可扩展和可解释的学习：用于知识发现的概率模型， 140页pdf

专知会员服务

49+阅读 · 2023年10月10日

【MIT博士论文】量子计算中的人工智能前景, 253页pdf

专知会员服务

41+阅读 · 2023年8月23日

【斯坦福博士论文】以数据为中心机器学习的理论与算法，209页pdf

专知会员服务

82+阅读 · 2023年7月17日