在数据挖掘中,异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。 特别是在检测滥用与网络入侵时,有趣性对象往往不是罕见对象,但却是超出预料的突发活动。这种模式不遵循通常统计定义中把异常点看作是罕见对象,于是许多异常检测方法(特别是无监督的方法)将对此类数据失效,除非进行了合适的聚集。相反,聚类分析算法可能可以检测出这些模式形成的微聚类。 有三大类异常检测方法。[1] 在假设数据集中大多数实例都是正常的前提下,无监督异常检测方法能通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常。监督式异常检测方法需要一个已经被标记“正常”与“异常”的数据集,并涉及到训练分类器(与许多其他的统计分类问题的关键区别是异常检测的内在不均衡性)。半监督式异常检测方法根据一个给定的正常训练数据集创建一个表示正常行为的模型,然后检测由学习模型生成的测试实例的可能性。

VIP内容

题目:

Mining Anomalies using Static and Dynamic Graphs

简介:

在许多情况下,例如安全性,医疗保健,财务和网络,异常检测,即稀有或异常模式是一个紧迫的问题。审查欺诈和网络入侵攻击之类的异常编码可疑,欺诈或恶意行为,不仅影响人们做出次优的决策,而且稳定地削弱了他们对业务的信任。这样,检测正在进行的异常并警告即将发生的异常的算法对企业和最终用户都具有很大的影响。本文通过开发可利用连接性和时间信息来检测异常行为或事件的原理化,可扩展算法,来考虑异常检测问题。这些方法对于大型动态复杂数据集很有用,这些数据集具有很强的关系和时间特性,多个实体相互交互,并且会随着时间而发展。如今,此类数据集是在多种多样的环境中生成的,其示例范围从电子商务日志到在线社交网络再到物联网。 论文的前半部分着重于图形中的异常检测,在这些图中,只有静态连接信息是已知的。给定一个图和一些标记的顶点,我们如何推断其余顶点的标记?例如,我们如何从一小组手动标记的诚实和伪造帐户中发现Amazon或Facebook上的所有伪造用户帐户?与现有文献相比,我们的工作利用了现实世界图中的三个关键属性,即顶点和边类型的异质性,偏度分布和高阶结构,可以产生更准确的顶点标记。所提出的算法具有封闭形式的解决方案,严格的收敛性保证,可以使用稀疏矩阵运算有效地实现,并且可以随图形大小线性缩放。 本文的后半部分着重于从连接结构随时间变化的数据中挖掘异常。在许多情况下,尤其是与安全和卫生保健有关的情况,新发现或预期的异常的价值在于当下,而不是不久的将来。因此,给定一个随时间变化的图表(显式图或隐式图),我们如何才能近乎实时地检测异常或事件,甚至可能在它们发生之前提早发出警报?我们的算法可以通过仅存储到目前为止所看到的图形的简短摘要并且不需要监督,就可以实时检测异常图形的足迹,例如密集子图的突然出现或消失以及桥边。我们还展示了如何以在线方式从时间序列数据推断状态转换图,并使用它来提前警告用户标记的异常,例如不利的医疗条件。在整个论文中,着重强调的算法不仅(a)在实践中有效,而且(b)高效,可以在几秒钟内在普通笔记本电脑上处理数百万条边缘,并且(c)有原则可以进行严格的推理,从而为推理,检测或利用数据相关的见解提供理论上的保证。我们证明了我们的算法在从社交网络和电子商务到安全和医疗保健的一系列应用中的功效。

成为VIP会员查看完整内容
0
15

最新内容

In this paper, we address the problem of image anomaly detection and segmentation. Anomaly detection involves making a binary decision as to whether an input image contains an anomaly, and anomaly segmentation aims to locate the anomaly on the pixel level. Support vector data description (SVDD) is a long-standing algorithm used for an anomaly detection, and we extend its deep learning variant to the patch-based method using self-supervised learning. This extension enables anomaly segmentation and improves detection performance. As a result, anomaly detection and segmentation performances measured in AUROC on MVTec AD dataset increased by 9.8% and 7.0%, respectively, compared to the previous state-of-the-art methods. Our results indicate the efficacy of the proposed method and its potential for industrial application. Detailed analysis of the proposed method offers insights regarding its behavior, and the code is available online.

0
0
下载
预览

最新论文

In this paper, we address the problem of image anomaly detection and segmentation. Anomaly detection involves making a binary decision as to whether an input image contains an anomaly, and anomaly segmentation aims to locate the anomaly on the pixel level. Support vector data description (SVDD) is a long-standing algorithm used for an anomaly detection, and we extend its deep learning variant to the patch-based method using self-supervised learning. This extension enables anomaly segmentation and improves detection performance. As a result, anomaly detection and segmentation performances measured in AUROC on MVTec AD dataset increased by 9.8% and 7.0%, respectively, compared to the previous state-of-the-art methods. Our results indicate the efficacy of the proposed method and its potential for industrial application. Detailed analysis of the proposed method offers insights regarding its behavior, and the code is available online.

0
0
下载
预览
Top