传送门！ICML2017（国际机器学习大会）最佳论文（附下载）

2017 年 8 月 7 日 量子位 专注报道AI

允中整理编译
量子位报道 | 公众号 QbitAI

8月6日，第34届国际机器学习大会（ICML 2017）已在悉尼拉开帷幕。

其中最受关注的论文奖项已公布。

据主办方消息，ICML2017共评审了1676篇论文，收录了434篇，录取率为25.89%。

最佳论文奖由斯坦福大学Pang Wei Koh和Percy Liang的论文Understanding Black-box Predictions via Influence Functions获得。最具时间价值奖则是2007年巴黎南大学和阿尔伯塔大学共同投递的论文Combining Online and Offline Knowledge in UCT。

量子位整理传送如下：

最佳论文奖

论文：Understanding Black-box Predictions via Influence Functions（通过影响函数理解黑箱预测问题）
作者：Pang Wei Koh、Percy Liang
单位：斯坦福大学

摘要：应该如何解释黑箱模型预测环境？在这篇论文中，我们用稳健统计学中的一种经典方法探索模型预测问题。通过学习算法和其背后的训练数据，模型能够识别给定预测最合理的训练点数。为了使影响函数应用在机器学习任务上，我们创建了一种简单且高效的实现方式，它仅需要梯度oracle访问途径和Hessian矢量积。虽然在非凸模型和不可微分模型中这个理论还不成立，但近似影响函数仍能提供有价值的信息。在这篇论文中，我们演示了影响函数在线性模型和卷积神经网络的多种任务的表现，包括理解模型表现、调试模型、检测数据集错误、甚至出创造视觉无法区分的训练集攻击类型。

论文下载地址：http://proceedings.mlr.press/v70/koh17a/koh17a.pdf

最佳论文提名

论文：Lost Relatives of the Gumbel Trick
作者：Matej Balog、Nilesh Tripuraneni、Zoubin Ghahramani、Adrian Weller
单位：剑桥大学、马克斯普朗克智能系统研究所等

摘要：Gumbel技巧是从离散概率分布中抽样或估计其归一化分区函数的方法。该方法取决于以特定方式重复对分布进行随机扰动，每次求解最可能的配置。我们得出了一系列相关的方法，其中Gumbel技巧是其中一种，并且表明新方法在几个设置中具有优越的性能，以及最小的附加计算成本。另外，对于Gum-bel技术来为离散图模型（discrete graphical model）有计算优势，所有配置的Gumbel扰动通常被所谓的低等级扰动（low-rank perturbations）所替代。我们展示了我们新方法的子系列如何适应这种设置，证明了对数分区函数的新的上限和下限，并得出了吉布斯分布（Gibbs distribution）的一系列重要采样器。最后，我们展示了如何通过更简单的Gumbel技巧来简化分析形式，推导出额外的理论结果。

下载地址：http://proceedings.mlr.press/v70/balog17a/balog17a.pdf

论文：Modular Multitask Reinforcement Learning with Policy Sketches
作者：Jacob Andreas、Dan Klein、Sergey Levine
单位：加州大学伯克利分校

摘要：我们描述了一个以policy sketches为指导的多任务深入增强学习的框架。sketches用指定的子任务序列标注任务，提供关于任务之间的高级结构关系的信息，但不是如何实现它们 —— 具体来说，不提供强化学习之前的学习策略抽象工作所使用的详细指导（如中间奖励、子任务完成信号、内在动机）。为了从sketches中学习，我们提出一个将子任务与模块化子政策相关联的模型，并通过将每一个子任务和模块子策略结合起来，并通过在共享子策略之间测试参数，将全部任务特定的策略的奖励最大化。优化是通过解耦合actor-critic训练目标来实现的，这个目标可以帮助学习多个不相似的奖励功能的共同行为。我们评估我们的方法在具有离散和连续控制的三个环境中的有效性，以及仅在完成若干高级次级目标之后才能获得的稀少奖励。实验表明，使用我们的方法学习sketches，比现有的学习特定任务或共享策略的技术具有更好的表现，同时可以自然归纳出可重新组合的可解释的原始行为库，以快速适应新任务。

下载地址：http://proceedings.mlr.press/v70/andreas17a/andreas17a.pdf

论文：A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions
作者：Jayadev Acharya、Hirakendu Das、Alon Orlitsky、Ananda Suresh
单位：康奈尔大学、雅虎等

摘要：许多应用中都出现了对称分布特性，例如支持大小、支持覆盖率、熵值和均匀性等。最近，研究人员应用了不同的估计量和分析工具，来为每个属性推导渐进的样本最优近似。我们的研究表明，单一、简单、插件式的估计量：profile maximum likelihood （PML），是可以与所有对称属性竞争的样本，特别是对于上述所有属性，PML最优。

下载地址：http://proceedings.mlr.press/v70/acharya17a/acharya17a.pdf

最具时间价值奖(Test of Time Award)

论文：Combining Online and Offline Knowledge in UCT
作者：Sylvain Gelly、David Silver
单位：巴黎南大学、阿尔伯塔大学

摘要：UCT算法使用基于样本的搜索在线学习价值函数。TD(λ) 算法可以为策略分布离线学习一个价值函数。我们在UCT算法中考虑了三种离线和在线价值函数的组合。第一种，在蒙特卡洛模拟中使用离线价值函数作为默认策略。第二种，UCT价值函数与快速在线action values评估相结合。第三，离线价值函数作为UCT搜索树的先验知识。我们通过在9×9规格围棋盘上对阵GnuGo 3.7.10来评估这些算法。第一种算法的表现，由于使用随机模拟策略的UCT，但是令人意外的比使用手工模拟策略的UCT算法要差。第二种算法全面优于UCT。第三种算法表现优于使用手工先验知识的UCT算法。我们在MoGo（世界最强9×9围棋程序）中结合了这三种算法。每一种算法都显著改善了MoGo的棋力。

下载地址：http://www.machinelearning.org/proceedings/icml2007/papers/387.pdf