Oleksandr Shchur

柏林AWS AI的一名应用科学家，我在那里研究AutoGluon。目前我的研究方向是时间序列预测和AutoML。我在慕尼黑工业大学(Technical University of Munich)攻读机器学习博士学位，导师是Stephan Günnemann。在读博士期间，我主要研究时间点过程(TPPs)——连续时间事件序列的概率模型，如社交媒体上的用户活动或地震学中的地震序列。

Modeling Continuous-time Event Data with Neural Temporal Point Processes

事件数据是机器学习许多高影响力应用的核心。电子健康记录中的医院访问，地震学中的地震目录，以及神经科学中的高峰列车——所有这些都可以用连续时间中可变长度的事件序列来表示。时间点流程(TPPs)为此类数据建模提供了一个自然的框架。然而，传统的TPP模型缺乏捕捉现实事件数据中呈现的复杂模式的能力。神经TPP旨在通过将神经网络与点过程文献中的基本思想相结合来解决这一限制。本论文的两个主要主题是(1) 设计灵活、可处理和高效的神经TPP模型，(2)它们在现实问题中的应用。我们的第一个贡献是TPP和神经密度估计领域之间的联系。这使得我们能够开发第一个神经TPP模型，其中的可能性计算、采样和预测都可以以封闭的形式有效地完成。接下来，我们提出了TriTPP——一种新的表达性TPP模型，与现有方法不同，该模型中所有操作都可以并行完成。快速平行采样为TPP模式开启了新的应用。我们通过推导连续时间离散状态系统的变分推断方案来证明这一点。最后，我们将拟合优度测试方法与神经TPP模型相结合，建立了一种简单有效的事件序列异常检测方法。

金融交易、在线交流、神经突列、地震——各种人为和自然现象都可以用连续时间的事件序列来表示。这种事件数据的概率模型被称为时间点过程(TPP)，可以用来进行预测，找到模式，并更好地理解各自的现实世界系统。TPPs理论是在20世纪Feller [56,58]， Cox [35,38]， Lewis [105,106]， Hawkes[79]和Ogata[133,134]的开创性著作中发展起来的。由于事件数据的普遍性，TPPs被广泛应用于地震[82,135]和神经科学[46,68]等科学领域，以及金融[9,80]和医疗[3,56]等行业。

在过去的几十年里，在实际应用中遇到的事件数据的规模和复杂性都出现了爆炸式增长。地震学的新技术能够收集数以百万计的地震的丰富多样的数据集[126,192]。像Twitter和Facebook这样的在线服务以前所未有的规模捕捉社交互动，而AWS这样的托管提供商每天产生PB级的数据[165]。分析这些数据可以释放出巨大的价值。然而，传统的TPP模型，如泊松过程或自激过程，无法捕捉这些数据中呈现的复杂模式。此外，事件序列通常伴随着与预测任务相关的附加属性(例如，位置)，但将它们纳入传统的TPP需要繁琐的特征工程。处理这些问题需要开发新的TPP模型，该模型具有表示复杂模式的灵活性，并具有足够的可扩展性，以处理大型多样化的数据集。

近年来，被称为神经TPPs的一类新模型出现，以应对上述挑战[170]。神经TPP将点过程理论的基本思想与深度学习方法相结合。深度学习方法基于神经网络——通过可微变换组合定义的表达函数逼近器[72]。基于神经网络的方法大大提高了计算机视觉[101,186]、自然语言处理[23,48]、图机器学习[212]和许多其他领域的性能。在本文中，我们研究了深度学习在连续时间事件数据中的应用。

在神经TPPs环境中，神经网络的灵活性允许我们从数据中自动学习事件发生的不同模式，而不是像传统模型那样手动指定它们。例如，在一个自激过程中，观察到的事件只能增加未来事件的到达率——这是一个相当有限的假设，在许多现实世界的事件数据集中不成立(例如，大脑中的抑制性神经元降低了放电率[46])。相比之下，神经TPP模型可以通过纯数据驱动的方式自动学习不同事件类型的抑制和兴奋效应。2016年，Du等人[52]和Mei & Eisner[119]的开创性工作首次展示了TPP与神经网络相结合带来的新可能性。随后，许多论文提出了神经TPP的新模型架构和参数估计算法[95,108,181,198-200]。然而，基于深度学习的TPP模式的设计和应用仍存在许多悬而未决的问题。

神经跨TPP模型应该满足许多要求，以成功地应用于现实世界的任务。此类模型的表达性、可处理性、高效训练和推理往往相互矛盾，现有的神经TPP架构在这些属性之间做出了次优权衡。在论文的第一部分，我们关注了TPP模式设计的这些方面，并将其作为我们的第一个研究问题:

研究问题1:我们如何定义灵活的神经TPP模型，同时可处理和高效?

我们首先回顾了概率建模和深度学习的基础知识，并在第2章中从机器学习的角度对TPP进行了独立的介绍。在第三章中，我们讨论了现有神经TPP模型的局限性，并引入了一类新的模型来解决这些缺点。通过与神经密度估计领域的联系，我们构建了灵活的神经TPP，其中似然计算和采样都可以解析地完成。与现有的方法相比，这是一个重大的改进，没有一种方法同时满足所有这些标准。接下来，在第4章中，我们将采取不同的路径，并展示如何通过三角形地图的视角来看待所有的TPP。基于这一见解，我们提出了TriTPP——一种基于可逆变换组成的灵活高效的TPP参数化方法。现代的TPP架构通常使用自回归神经网络(例如，rnn和变压器)，因此具有内在的顺序性。相比之下，在TriTPP中，采样和训练可以并行进行，这大大提高了效率。此外，重新参数化的高效采样为TPP提供了新的应用。这就直接引出了我们的第二个研究问题:

研究问题2: 我们如何应用神经TPP来解决现实世界的问题?

在第5章中，我们展示了重新参数化技巧如何让我们有效地训练基于抽样损失的TPP模型。TPP的这种损失函数通常是不连续的，这使得用基于梯度的方法对其进行优化是不可能的。为了解决这一挑战，我们引入了一个可微松弛的损失，包括变长事件序列。为了展示这种方法的实用性，我们开发了一个连续时间离散状态系统的变分推断方案，如马尔可夫跳跃过程。最后，在第6章中，我们用TPPs处理事件序列的异常检测。我们演示了如何使用生成模型的拟合优度测试来解决异常检测问题——针对任意数据类型，而不仅仅是事件序列。我们将该框架与第三章的神经TPP模型相结合，得到了一种简单有效的异常检测方法。

成为VIP会员查看完整内容

相关内容

博士论文

关注 121

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【MIT博士论文】数据高效强化学习，176页pdf

专知会员服务

88+阅读 · 2022年7月11日

如何处理数据缺失值？INRIA研究员Gael 《机器学习缺失值处理》54页ppt教程，为你讲解

专知会员服务

26+阅读 · 2022年4月21日

【2021斯坦福新书】统计学思维，300页pdf

专知会员服务

122+阅读 · 2021年10月17日

【经典书】机器学习统计学，476页pdf

专知会员服务

122+阅读 · 2021年7月19日