「图异常检测在金融反欺诈中的应用」研究进展

2022 年 11 月 20 日 专知

随着数字金融的快速发展，欺诈呈现出智能化、产业化以及强隐蔽性等新特点，传统的专家规则和机器学习方法局限性日益显现。图异常检测技术对关联信息具有强大的处理能力，为金融反欺诈提供了新的思路。简要介绍了图异常检测的发展历程和优势；着重从个体反欺诈和群体反欺诈两个视角，将图异常检测划分为基于特征、基于邻近性、基于图表示学习和基于社区划分的个体欺诈检测，以及基于稠密子图、基于稠密子张量和基于深层网络结构的团伙欺诈检测，并对每类技术的基本思想、优缺点、研究进展和典型应用进行对比分析；同时归纳总结了常用的数据集和评价指标，并给出图异常检测在金融反欺诈中的发展前景和研究方向。

http://cea.ceaj.org/CN/10.3778/j.issn.1002-8331.2203-0233

1. 概述

当今，数字化金融服务以其非接触、高效率和服务场景灵活等优势，极大便利了消费者的金融活动，在大数据、云计算以及人工智能等新兴技术的驱动下，以金融科技为主题的金融革命正以燎原之势席卷全球[1-2] ，各种创新型数字化金融服务场景和渠道不断涌现。同时，以此为背景的“黑色产业”肆虐发展，已经渗透到个人信贷、医疗保险和车险理赔等金融领域。据统计，相关“黑色产业”从业人员超过 500 万，涉及金额损失达到千亿级别[3] 。因此，探究新型场景下的金融反欺诈研究方法具有极大的理论价值和现实意义。

早期的文献多集中于利用检测规则进行欺诈识别，前提假设为欺诈活动存在明显的规则模式，可以通过定义一些组合规则进行识别，其具有易操作性和可解释性，因此在早期的欺诈检测中广受欢迎。基于规则的方法高度依赖人类专家的知识判定，难以发现复杂动态且隐蔽的欺诈模式，同时，极易被欺诈者识别进而改变自身的欺诈行为以躲避检测，这将不断提升基于规则的检测难度。为此，许多学者提出使用机器学习以挖掘常规方式难以识别的潜在欺诈模式。该类方法将从不同维度提取用户的统计特征，如用户的社会属性、交易信息和行为信息，用传统的机器学习模型对用户数据进行训练学习[4-5] 。然而，此类方法将用户特征作为独立的矢量。处理，忽略了实体之间的关联性。如今，我国信息化迈入以物联网和云计算为代表的新阶段，金融机构积累了海量的用户属性信息和行为信息，如何从中挖掘用户间关联成为提高欺诈检测性能的关键。图数据在表示实体复杂交互关系方面具有得天独厚的优势，基于图挖掘的异常识别技术（graphbased anomaly detection，GBAD）因其高效、普适和准确性高等特点受到了工业界和学术界的广泛关注。此类方法致力于从“关系”角度分析问题，基于行业大数据和相关领域知识构建关联网络，实体抽象为图中的节点，实体间的交互抽象为节点间的连边，并运用相关的图挖掘技术识别异常模式的节点、边或者子图。相比传统的欺诈检测技术，基于图的异常检测不仅可以直观地呈现数据中隐含的复杂拓扑结构，而且将数据对象间的关联融入到欺诈识别任务中，从网络的整体拓扑结构出发更容易识别隐藏极深的欺诈行为。近年来，GBAD技术在识别网络内的欺诈活动方面做出了巨大贡献，被欺诈检测专家认为是稳健、可靠和有前途的异常检测技术[6] 。

本文对图异常检测在金融反欺诈中的应用进行系统分类，介绍其中具有代表性的方法，探讨现有方法的局限性和面临的挑战，指明未来的研究方向。具体贡献如下：（1）分别从个体反欺诈和群体反欺诈的视角，将图异常检测技术系统分类，并对每种技术进行全面的评述、分析和比较；（2）拓展了图异常检测方法，整理归纳近几年涌现的基于图嵌入、深度自编码器以及图神经网络等技术解决欺诈检测的新方法；（3）结合当前反欺诈的前沿任务展望图异常检测技术的发展方向。

2. 图异常检测技术研究进展

2.1 图异常检测技术定义

Hawkins 定义传统的异常检测是寻找数据集中分布或形成机制显著区别于正常模式的数据对象[7] 。图异常检测[8] 是利用图数据结构进行问题建模，并基于相关的图数据挖掘技术，在图中寻找显著不同于其他图对象的节点、边或子结构。欺诈检测问题可以转换为异常检测任务（anomaly detection，AD），相比传统的异常检测技术，图异常检测在反欺诈领域呈现出巨大的优势，主要体现在以下几个方面：

（1）欺诈领域中数据的相互依赖性

传统的异常检测技术将数据视为独立存在于多维空间中的点。在实际问题中，尤其是在欺诈场景下，数据对象通常相互关联并表现出依赖性。因此在进行异常检测过程时需要考虑相关性。图数据结构通过在相关对象之间引入连边自然地表示相互依赖关系，为有效捕捉这种长期相关性提供了强大的范式。例如，在评论者-产品评论的图数据中，评审者的欺诈程度不仅取决于其评论的对象和内容，而且取决于其他评审者如何评价同一产品及其评价的可信度，而这又依赖他们评价的其他产品[9] 。由于真实数据集中存在的相关性，在图数据中检测异常更为合理。

（2）欺诈领域的异常关系

欺诈现象的本质可以表示为异常关系，通常考虑两种情况：① 基于关系传播的机会主义欺诈（如果一个人存在欺诈行为，那么他的熟人有很大概率会进行诈骗）； ② 基于相关群体密切合作的有组织欺诈[10] 。以上这两种情况都指向异常关系的检测。

（3）图异常检测模型的健壮性

随着欺诈的日益专业化，欺诈者通常改变欺诈手法以逃避检测，例如更改或伪造登录时间和IP地址等行为线索。但是欺诈者无法操纵整个关联网络，因此图异常检测被认为是更健壮的对抗欺诈的方法。

2.2 图异常检测技术的研究进展

图数据结构对关联信息强大的表示能力以及图计算和深度神经网络等相关技术的发展，使得图异常检测技术逐渐成为国内外学者的研究热点。Akoglu 等人[11] 将图异常检测技术分为基于结构、基于社区、基于分解和基于窗口等类型，系统梳理了每类方法下的关键技术，并讨论了图异常检测技术在包括欺诈检测在内的真实场景下的应用。Gupta等人[12] 对时序网络中的图异常检测技术进行了总结和归纳，包括基于图相似度、基于特征向量和基于社区这三类方法。Ranshous 等人[13] 全面概述了动态图中的异常检测技术，将其划分为基于社区、基于压缩、基于分解、基于距离和基于概率分布五种类型，并对每类方法中的主流算法进行对比分析。 Savage等人[14] 关注于在线社交网络（online social network， OSN）中不同类型异常（如异常节点、边缘或子图）的检测。他们将 OSN中的异常检测总结为两个步骤：（1）网络特征的选择和计算；（2）基于该特征空间对观测进行分类。李忠等人[15] 分别基于静态图和动态图的视角，根据异常类型进一步将静态图异常检测划分为孤立个体异常检测和群体异常检测两类，动态图异常检测分为孤立个体异常检测、群体异常检测和事件异常检测三类，并系统梳理了每类异常检测的关键性技术。苏红军等人[16] 从技术层面将静态图异常检测分为基于结构、基于社区和基于关系学习三类，按照异常类型将动态图异常检测分为基于节点、基于边、基于子图和基于全图四类。近年来，基于深度神经网络进行图异常检测成为新近研究热点，陈波冯等人[17] 从静态图和动态图角度出发，全面概括了基于深度神经网络的图异常检测的研究现状，并总结了图异常检测的实际应用场景和相关数据集。

表 1 系统梳理了现有的图异常检测综述。尽管已有上述众多的图异常检测综述，但大多数文献都基于技术角度，目前仍然缺少针对某一应用领域的图异常检测研究进展进行系统深入的梳理和总结。以往的工作或从技术层面对所有的图异常检测算法进行分类总结，或集中于某一类型的网络进行归纳分析。本文聚焦于金融欺诈检测领域，旨在对此应用背景下的图异常检测算法研究进展进行系统的梳理和总结，深入探讨应用 GBAD进行欺诈检测的关键问题、技术方法和未来挑战。

图异常检测在个体反欺诈中的应用

基于图的个体反欺诈可以抽象为给定网络数据，从中查找异常的节点或边。面向个体的欺诈检测又可以分为基于结构特征的方法、基于邻近性的方法、基于图表示学习的方法以及基于社团划分的方法。基于图的个体欺诈检测方法可以分为基于特征的欺诈检测、基于邻近性的欺诈检测、基于图表示学习的欺诈检测以及基于社团划分的欺诈检测。早期的个体欺诈检测方法主要从图的特征提取出发，在新构造的特征空间中进行异常检测，包括基于结构特征的方法和基于邻近性的方法。前者利用提取的图结构特征表征正常行为模式，显著偏离正常模式的被视为可疑个体。后者利用网络的结构信息量化节点间的邻近度，邻近度高的节点被认为是同一类（正常或欺诈）。基于特征的图异常检测中，图结构的表征是关键，值得注意的是，不同的金融场景以及欺诈手段下，特征选择各有差异，需要专家根据业务场景和已知的欺诈活动慎重设计。因此，该方法的性能高度依赖于人类专家的干预，可扩展性差；并且图特征仅考虑网络的浅层拓扑结构，无法捕捉节点间的非线性关系。图表示学习是将图数据映射到低维向量空间的有效技术，它可以捕捉节点间的非线性关系以获得更有效的潜在表示，支持下游的欺诈检测任务，能够很好地解决传统图特征方法可扩展性差的问题。现有的图表示学习多基于深度学习，导致该类方法的可解释性较差，将其运用在欺诈检测上往往使得检测结果难以直观理解。目前，对基于图表示学习方法的可解释性仍是学术界的研究难点和热点。基于社团划分的方法旨在挖掘复杂网络中一类特殊的欺诈节点——桥接节点，桥接节点不直接属于某一社团，在不同社团之间起着桥梁作用，例如信贷欺诈中的黑产中介。值得注意的是，这类方法应用的前提是网络中连接多个社团的桥接节点是欺诈节点，因此在网络构建时，应结合实际欺诈场景定义节点和边，使其满足这个前提。

图异常检测在群体反欺诈中的应用

相较于个人欺诈，团伙欺诈的波及范围更广，社会危害性也更高，呈现“智能化、产业化、攻击迅速隐蔽、内外勾结比例上升和移动端高发”五大特征，例如，在信贷领域，黑中介和黑产出现深度融合的态势，开始以团伙形式开展线上贷款申请审批业务，骗取大量资金。检测这种虚假的用户社区（也称为组或集群）已经成为一个关键的焦点。基于图的团伙反欺诈旨在挖掘由异常活动导致的具有不寻常结构的特定子图，这些子结构通常显著偏离正常模式，如稠密子图、稠密子张量、频繁子图或其他特定的连接模式。不寻常子图的定义通常与欺诈检测问题高度相关，包括基于稠密子图的欺诈检测、基于稠密子张量的欺诈检测、基于深层网络结构的欺诈检测以及基于频繁子图的欺诈检测。网络中联系紧密的子图往往表明异常或欺诈行为，可以通过稠密子图或稠密子张量挖掘进行有效检测，两者的基本思想相似：首先定义稠密度指标，然后采用搜索策略进行度量指标优化以识别欺诈用户群体，其关键在于稠密度的定义。前者基于二维网络数据进行研究，往往造成数据的缺失。而稠密子张量的方法使用多模数据对网络进行建模，支持从更高的数据维度进行用户行为分析，有效提升欺诈检测的准确性。不足的是，此类方法通过设计各种密度度量进行稠密子图（子张量）挖掘，仅考虑网络的浅层拓扑结构，无法捕捉节点间的非线性关系。基于深层网络结构的欺诈检测通过深度网络嵌入学习节点的潜在表示，将网络结构信息编码在一个连续的向量空间中，然后利用聚类算法在潜在空间中找到高密度区域。此方法通过图嵌入对原始网络进行降维处理，可以拓展到大规模复杂网络的欺诈检测，有效解决传统检测算法带来的维数灾难。