机器学习(ML)系统的规模正在迅速增长,正在获得新的能力,并越来越多地部署在高风险的环境中。为了满足对安全ML系统日益增长的需求,我首先讨论如何使系统可靠地执行。之后,我将讨论如何使系统的行为符合人类的价值观。最后,我讨论了如何使ML系统更安全的开放问题。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-133.html

在这篇论文中,我们的目标是帮助塑造将促使强大的人工智能系统的过程,并将过程引导到更安全的方向。我们通过让深度学习系统更安全来做到这一点,因为深度学习的工作可能会转化为未来的系统。我们总结我们的发现并讨论一般的教训。

在第2章中,我们首先展示了上游功能可以提高安全性。特别是,自监督学习和预训练可以改善许多安全指标。我们还表明,在大规模设置的尺度异常检测方法可能存在挑战。然后,我们展示了大规模的NLP模型在许多安全指标上有很高的性能。接下来,我们展示了尽管视觉模型在很多方面都有能力,但它们仍然可以很容易地通过反向策划的例子被打破。在下一节中,我们将展示,即使在稳健性中,我们也可以在不改进一般功能的情况下改进安全度量。最后,PixMix表明,一个方法可以在多个安全指标方面接近帕累托最优。在第三章中,我们展示了模型可以模仿人类对规范性陈述的反应,而不仅仅是描述性陈述。这让我们能够将带有道德知识的模型应用于基于文本的互动游戏中。这些模型过滤了其他主体模型,并阻止主体模型采取道德上不受欢迎的行为。这一切都是在没有提高一般游戏能力的情况下完成的。

在第4章中,我们整合并完善了在以前的论文中探索的各个方向,为提高安全性提供了一个路线图。本节介绍了“系统安全”,它明确承认社会技术考虑对于提高安全性是必要的。它还将对齐与其他不同的研究目标(如鲁棒性和监控)分离开来。通过提供许多可供研究的问题,希望更多的研究人员能够致力于提高安全性。最后,我们列举了许多使机器学习系统更安全的新方向。这些都是让未来强大的人工智能系统更安全的中间步骤。随着模型的能力越来越强,我们希望研究界能够更直接地研究先进人工智能系统的尾部风险,包括可能永久削弱人类长期潜力的风险。

成为VIP会员查看完整内容
37

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
Berkeley博士论文《反馈系统中的可信机器学习》203页pdf
专知会员服务
38+阅读 · 2022年3月25日
【开放电子书】概率编程导论,301页pdf
专知会员服务
47+阅读 · 2021年10月21日
【CMU博士论文】可控文本生成,附107页pdf与Slides
专知会员服务
55+阅读 · 2021年4月21日
专知会员服务
78+阅读 · 2020年12月22日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
215+阅读 · 2020年10月8日
专知会员服务
63+阅读 · 2020年9月10日
首个视觉-语言预训练综述来了!
夕小瑶的卖萌屋
6+阅读 · 2022年3月29日
中科院自动化所:最新视觉-语言预训练综述
PaperWeekly
3+阅读 · 2022年3月1日
【ETH博士论文】贝叶斯深度学习,241页pdf
专知
9+阅读 · 2022年1月16日
【开放电子书】概率编程导论,301页pdf
专知
4+阅读 · 2021年10月21日
421页《机器学习数学基础》最新2019版PDF下载
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年7月5日
Arxiv
0+阅读 · 2022年7月4日
Arxiv
74+阅读 · 2022年3月26日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员