论文题目: Definitions, methods, and applications in interpretable machine learning

论文摘要:

机器学习模型在学习复杂模式方面取得了巨大的成功,这些模式使机器能够对未观察到的数据做出预测。除了使用模型进行预测外,解释模型所学内容的能力正受到越来越多的关注。然而,这种关注的增加导致了对可解释性概念的相当大的混淆。特别是,目前还不清楚所提出的各种解释方法是如何相互联系的,以及可以用什么共同的概念来评价这些方法。我们的目标是通过定义机器学习环境中的可解释性,并引入预测、描述和相关(PDR)框架来讨论解释性,从而解决这些问题。PDR框架为评估提供了3个主要的需求:预测准确性、描述准确性和相关性,以及相对于人类受众判断的相关性。此外,为了帮助管理大量的解释方法,我们将现有的技术分为基于模型的和特定的类别,包括稀疏性、模块化性和可模拟性。为了证明从业者如何使用PDR框架来评估和理解解释,我们提供了大量的实际例子。这些例子突出了人类观众在讨论可解释性时常常被低估的作用。最后,基于我们的框架工作,我们讨论了现有方法的局限性和未来工作的方向。我们希望这项工作将提供一个共同的词汇,使从业者和研究人员更容易地讨论和选择全面的解释方法。

论文作者:

W. James Murdoch是加州大学伯克利分校研究生,研究兴趣为可解释性,机器学习,自然语言处理和因果推理。

Chandan Singh在伯克利攻读博士学位,研究计算系统,研究范围是机器学习、可解释性、计算神经科学。

成为VIP会员查看完整内容
9+
0+

相关内容

W. James Murdoch是加州大学伯克利分校研究生,研究兴趣为可解释性,机器学习,自然语言处理和因果推理。

题目

基于学习的序列决策算法的公平性综述论文,Fairness in Learning-Based Sequential Decision Algorithms: A Survey

关键字

序列决策,机器学习,预测,公平性

简介

决策过程中的算法公平性已经被广泛研究,在不稳定的环境下,对分类等任务进行一次性决策。然而,在实践中,大多数决策过程都是顺序的,过去的决策可能会对未来的数据产生影响。特别是当决策影响到生成用于未来决策的数据的个人或用户时。在这项调查中,我们回顾了现有文献的数据驱动顺序决策的公平性。我们将关注两类顺序决策:(1)过去的决策对潜在用户群没有影响,对未来数据也没有影响;(2)过去的决策对潜在用户群有影响,因此对未来数据也有影响,进而影响未来的决策。在每种情况下,都要研究各种公平干预措施对底层人口的影响。

作者

Xueru Zhang and Mingyan Liu

成为VIP会员查看完整内容
5+
0+

题目: Graph Summarization Methods and Applications: A Survey

摘要:

虽然计算资源的进步使处理大量数据成为可能,但人类识别这些数据模式的能力并没有相应提高。因此,压缩和简化数据的高效计算方法对于提取可操作的见解变得至关重要。特别是,虽然对数据摘要技术进行了广泛的研究,但直到最近才开始流行对相互关联的数据或图进行汇总。这项调查是一个结构化的,全面的概述了最先进的方法,以总结图形数据。我们首先讨论了图形摘要背后的动机和挑战。然后,我们根据作为输入的图形类型对摘要方法进行分类,并根据核心方法进一步组织每个类别。最后,我们讨论了总结在真实世界图上的应用,并通过描述该领域的一些开放问题进行了总结。

作者简介:

Yike Liu是密西根大学物理系五年级的博士生,也是计算机科学与工程系的一名硕士研究生。我是叶杰平教授的顾问。主要研究方向是深度学习和强化学习,尤其是在交通数据上的应用。在此之前,从事过基于图形的机器学习和数据挖掘,特别是图形总结和图形聚类,在这些工作中,开发了图形挖掘算法,帮助更好地理解底层的图形组织并理解它。

Tara Safavi是密西根大学博士研究生,研究重点是知识表示及其在以人为中心的任务中的使用、评估和解释,还对更广泛的AI+社会问题感兴趣,比如隐私、偏见和环境可持续性。研究目前得到了美国国家科学基金会(NSF)研究生奖学金和谷歌女性科技创造者奖学金的支持。

成为VIP会员查看完整内容
7+
0+

题目: Causal Inference and Stable Learning

简介:

在一个常见的机器学习问题中,使用一个根据训练数据集估计的模型,根据观察到的特征来预测未来的结果值。当测试数据和训练数据来自相同的分布时,许多学习算法被提出并证明是成功的。然而,对于给定的训练数据分布,性能最好的模型通常利用特征之间微妙的统计关系,这使得它们在应用于测试数据时更容易出现预测错误,因为测试数据的分布与训练数据的分布不同。对于学术研究和实际应用来说,如何建立稳定、可靠的学习模型是至关重要的。因果推理是一种强大的统计建模工具,用于解释和稳定的学习。因果推理是指基于某一效应发生的条件,对某一因果关系做出结论的过程。在本教程中,我们将重点讨论因果推理和稳定学习,旨在从观察数据中探索因果知识,以提高机器学习算法的可解释性和稳定性。首先,我们将介绍因果推理,并介绍一些最近的数据驱动的方法来估计因果效应的观测数据,特别是在高维设置。摘要为了弥补因果推理与机器学习在稳定学习上的差距,我们首先给出了学习算法的稳定性和鲁棒性的定义,然后介绍了一些最近出现的稳定学习算法,以提高预测的稳定性和可解释性。最后,我们将讨论稳定学习的应用和未来方向,并为稳定学习提供基准。

邀请嘉宾:

张潼,香港科技大学计算机科学与数学教授。此前,他是罗格斯大学(Rutgers university)教授,曾在IBM、雅虎(Yahoo)、百度和腾讯(Tencent)工作。张潼的研究兴趣包括机器学习算法和理论、大数据统计方法及其应用。他是ASA和IMS的研究员,曾在主要机器学习期刊的编委会和顶级机器学习会议的项目委员会任职。张潼在康奈尔大学获得数学和计算机科学学士学位,在斯坦福大学获得计算机科学博士学位。

崔鹏,清华大学计算机系长聘副教授,博士生导师。2010年于清华大学计算机系获得博士学位。研究兴趣包括社会动力学建模、大规模网络表征学习以及大数据驱动的因果推理和稳定预测。近5年在数据挖掘及人工智能领域高水平会议和期刊发表论文60余篇,曾5次获得顶级国际会议或期刊论文奖,并先后两次入选数据挖掘领域顶级国际会议KDD最佳论文专刊。目前担任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等国际期刊编委。曾获得国家自然科学二等奖、教育部自然科学一等奖、电子学会自然科学一等奖、CCF-IEEE CS青年科学家奖、ACM中国新星奖。入选中组部万人计划青年拔尖人才,并当选中国科协全国委员会委员。

成为VIP会员查看完整内容
8+
0+

讲座题目

大时间序列预测的理论与实践:Forecasting Big Time Series: Theory and Practice

讲座简介

时间序列预测是业务流程自动化和优化的一个关键组成部分:在零售业,根据对不同地区未来需求的预测来决定要订购哪些产品以及在哪里存储这些产品;在云计算中,服务和基础设施组件的估计未来使用量指导容量规划;仓库和工厂的劳动力调度需要对未来的工作量进行预测。近年来,预测技术和应用的范式发生了变化,从基于计算机辅助的模型和假设到数据驱动和全自动化。这种转变可以归因于大量、丰富和多样的时间序列数据源的可用性,并导致一系列需要解决的挑战,例如:我们如何建立统计模型,以便有效地学习从大量和多样的数据源进行预测?在观测有限的情况下,我们如何利用“相似”时间序列的统计能力来改进预测?对于构建能够处理大量数据的预测系统有什么意义? 本教程的目标是提供解决大规模预测问题的最重要方法和工具的简明直观概述。我们回顾了三个相关领域的研究现状:(1)时间序列的经典建模,(2)包括张量分析和深度学习的现代预测方法。此外,我们还讨论了建立大规模预测系统的实际方面,包括数据集成、特征生成、回溯测试框架、误差跟踪和分析等。

讲座嘉宾

Christos Faloutsos 现任职务于卡内基梅隆大学 (Carnegie Mellon University)电子和计算机工程教授,研究领域:图和流的数据挖掘,分形、自相似与幂律,视频、生物和医学数据库的索引和数据挖掘,数据库性能评估(数据放置、工作负载特征)。

成为VIP会员查看完整内容
3+
0+

论文题目:大规模结构化知识的 表示学习、自动获取与计算应用

论文作者:林衍凯,腾讯微信模式识别中心高级研究员。博士毕业于来自清华大学自然语言处理组, 由孙茂松教授和刘知远副教授共同指导,主要研究方向为知识图谱表示、构建和应用。目前已在人工智能、自然语言处理等领域的著名国际会议IJCAI,AAAI,EMNLP,ACL发表相关论文多篇,Google Scholar引用数超过1400。曾获2017年百度奖学金、2018年清华大学学术新秀。

指导老师:孙茂松,教授,博士生导师,曾任清华大学计算机科学与技术系系主任,现任教育部在线教育研究中心副主任、清华大学计算机系党委书记、清华大学大规模在线开放教育研究中心主任。

论文摘要:知识图谱是人工智能研究和智能信息服务基础核心技术,能够赋予智能体精 准查询、深度理解与逻辑推理等能力。目前,基于深度学习的自然语言处理技术只 能从数据中机械地学习完成特定任务的语义模式,不具备鲁棒性和可解释性,做 不到对语言的深层理解与推理。我们认为要想实现真正的自然语言理解,需要在 现有深度学习技术的基础上融合知识图谱信息。实现自然语言处理与知识图谱的 融合并非轻而易举,需要解决几个关键问题: (1)知识表示。在深度学习模型中充分利用大规模知识图谱,需要首先解决知 识图谱表示的问题。在这方面,我的工作包括:a. 考虑知识图谱复杂关系的知识 表示:我们提出了基于映射矩阵进行空间投影的知识图谱表示模型,用于处理知 识图谱中的复杂关系。b. 考虑知识图谱复杂路径的知识表示:我们认为实体之间 多步的关系路径同样包含着丰富的关系推理信息,并提出了一种基于路径表示的 知识图谱表示模型。c. 考虑知识图谱复杂属性的知识表示:我们提出了一种同时 学习知识图谱中实体、关系和特性表示的知识图谱表示模型,以提高知识图谱表 示的质量。 (2)知识获取。如何从互联网大规模的结构化、半结构和无结构数据中自动获 取知识,辅以少量人工校验,是大规模知识图谱构建的必由之路。在这方面,我的 工作包括:a. 基于选择注意力机制的关系抽取:针对远程监督数据中存在大量的 噪音的问题,我们提出了一个基于句子级别选择注意力机制的神经网络关系抽取 模型,用于过滤错误标注的句子。b. 基于多语言注意力机制的关系抽取:现有的 关系抽取系统通常专注于如何更好地利用单语言数据,忽略了多语言数据对于关 系抽取任务的帮助。针对这个问题,我们提出了一个基于多语言选择注意力机制 的关系抽取模型。 (3)知识应用。面向不同自然语言处理任务,我们需要探索将知识合理地融合 到该任务下的深度学习模型中,实现知识指导的自然语言理解。在这方面,我的 工作包括:a. 基于知识的实体分类:我们提出了基于知识注意力机制的实体分类 模型,用于考虑命名实体和上下文之间的联系以及知识图谱中丰富的有关信息。b. 基于知识的开放域问答:我们借鉴人类回答问题的模式提出了一个基于 ‘‘粗读-精 读-总结’’ 模式的开放域问答系统。 我们的工作有效地解决了面向知识图谱的知识表示、知识获取、知识应用中 的关键问题,为迈向真正的自然语言理解打下了坚实的基础。

成为VIP会员查看完整内容
博士论文_林衍凯_大规模结构化知识的表示学习、自动获取与计算应用.pdf
9+
0+

报告主题: Fine-grained Opinion Mining: Current Trend and Cutting-Edge Dimensions

简介:

细粒度意见挖掘(也称为基于方面的情绪分析)旨在提取关于意见目标(方面)、意见持有者以及对他们表达的意见/情绪的知识,从而生成结构化的意见摘要。这项任务被证明是更重要和更有挑战性的,提供了一个深入的分析固执己见的文本,但在社区讨论不足,相比于整体情绪评分分类。本教程旨在回顾该领域现有的工作,包括3个主要的子任务,即基于方面的情感分类、与方面相关的提取和总结。我们介绍了各种模型结构,包括基于特征的、基于规则的和基于深度学习的模型,这些模型侧重于开发输入文本之间复杂的字级交互,并促进了这些方法的通用性,以用于有效的知识提取。除了单领域的研究,下一步是探索跨领域、跨语言和多模式的策略。尽管更具挑战性,但这些替代方案促进了细粒度意见挖掘的开发,因为在实际行业中,只有有限的资源可以使用细粒度注释。我们介绍了一些现有的研究,旨在为这些前沿的研究方向提供更多的见解。

邀请嘉宾:

虞剑飞是新加坡管理大学信息系统学院研究员,他的研究集中在深度学习和迁移学习的许多自然语言处理任务,包括情绪分析、信息提取和问题回答。

成为VIP会员查看完整内容
3+
0+

报告主题: Epistemic reasoning in AI

简介:

在多智能体系统中,智能体应该能够解释它们的决策。事实上,在失败的情况下,智能体需要以一种可以理解的方式为它们的决定辩护,特别是要遵守最近的法律(如欧洲的GDPR)。此外,它们需要做出有意义的决定来与它他智能体合作,比如人类。为了实现这一目标,智能体应该模拟人的心理状态。例如,如果机器人认为人类需要某个物体而不知道它的位置,那么它可以将该物体的位置告知人类。在本教程中,我们将介绍关于知识/信念的推理的最新进展。它由教学工具Hintikka来展示,该工具通过连环画的方式描绘人的心理状态,并以游戏等多种简单的多智能体系统为特色。我们将讨论几个正式的工具建模如下:

  • 通过观察/感知环境/其它智能体获得的知识;
  • 知识的时间方面
  • 复杂的认知行为(公共/私人公告等)
  • 不完全信息下的战略推理
  • 以知识为基础的项目

邀请嘉宾:

Tristan Charrier教授是INRIA/IRISA(法国雷恩)的研究员,目前是临时助理教授。主要兴趣是应用于人工智能的逻辑/形式方法、符号模型、认知规划、指定认知情境的语言、认知推理的论证。

François Schwarzentruber是法国雷恩大学的副教授。他目前的研究兴趣主要集中在逻辑理论和人工智能、代理和多代理系统以及计算机科学中的应用。他是AAMAS和IJCAI等专题的PC版成员。曾任Synthese、Studia Logica、Theoretical Computer Science等期刊的审稿人。2011年以来,主要研究动态认知逻辑。

成为VIP会员查看完整内容
5+
0+
Top