WebDigg

金融风控反欺诈之图算法

作者: DataFun社区
发布日期: 2019 年 5 月 6 日

先介绍下金融借贷业务流程：用户前来申请借贷，会先经过欺诈识别，把欺诈团伙和主观欺诈的个人拒绝掉，然后对通过的人做信用评估，最后根据额度模型，算出利润最大化时放款金额。

刚才提到了团队欺诈，举个真实的例子。宜人贷在他们的财报中公布的，他们被一个团伙成功撸走了 2000 多单，当时宜人贷的件均 4w，一下损失了 8000w！！

那么如何防范这种风险呢。这就是今天要分享的图算法。图可以将这些一个个有良好记录的个体关联起来, 一网打尽。

再举一些团伙欺诈的行为。比如一个团伙，注册真实的淘宝商家，然后刷出良好的淘宝购物记录。或者来回转账，刷出良好的银行流水。

刚才前两位老师都没有提到额度模型，简单介绍下，如果只给用户放款 5000，可能坏账风险很小，但是利息也少，如果放款 10000，利息虽然收到利息多了，但是坏账风险高岭，所以需要做个权衡

G=(V,E)G=(,E)

举例，两个人之间的联系， A 给 B 买了东西，A 和 B 之间的通话次数时长多于 A 和 C 之间。

度中心性（Degree Centrality） - 表示连接到某节点的边数。在有向图中，我们可以有 2 个度中心性度量：流入和流出。一个节点的节点度越大就意味着该节点在网络中就越重要。
接近中心性（Closeness Centrality） - 从某节点到所有其他节点的最短路径的平均长度。反映在网络中某一节点与其他节点之间的接近程度。
介中心性（Betweenness Centrality） - 某节点在多少对节点的最短路径上。介数中心性是比较能体现节点在图中桥梁作用的中心性度量方法。介数反映了相应的节点或者边在整个网络中的作用和影响力，具有很强的现实意义。例如，在交通网络中，介数较高的道路拥挤的概率很大；在电力网络中，介数较高的输电线路和节点容易发生危险。

社团发现算法一般有：

最小割算法广泛应用在分布式计算的负载均衡中，对集群节点的分组有利于减少不相关节点之间的通信。然而由于该算法限定了网络最终分组的个数，而不能通过算法“发现”节点间的内在联系并自然地构成若干个社区，因此最小割算法应用较为局限。

本文主要分享这两类的主要算法，基于模块度的 louvain 和基于信息熵 infomap ，基于相似度的 node2vec

优化目标：一般认为社团内部的点之间的连接相对稠密，而不同社团的点之间的连接相对稀疏。

所以模块度也可以理解是社区内部边的权重减去所有与社区节点相连的边的权重和，对无向图更好理解，即社区内部边的度数（内部的连线数）减去社区内节点的总度数。

节点 i 和节点 j 之间边的权重，网络不是带权图时，所有边的权重可以看做是 1；

表示所有与节点 i 相连的边的权重之和（度数）；

表示节点 i 所属的社区；

表示所有边的权重之和（边的数目）。

其中表示社区 c 内的边的权重之和，表示与社区 c 内的节点相连的边的权重之和，即社区 c 节点的度之和（包含与其他社区相连边的度）。

从概率的角度去看：

表示实际情况下，c 社区内产生边的概率。

表示在一种理想情况下，给定任意节点 i 的的度 ki，对节点 i 和节点 j 进行随机连边，边属于社区 c 的概率期望。

于是上式就表示了社区内连边数与随机期望的一个差值。连边数比随机期望值越高，表明社区划分的越好。

一般使用后面简化的公式，简化后的公式删除了判断两个节点是否划为同一个社区的函数，所以在一定程度上大大减少了 Q 值计算量。

Louvain

Louvain 算法的思想很简单：

将图中的每个节点看成一个独立的社区，此时社区的数目与节点个数相同；
对每个节点 i，依次尝试把节点 i 分配到其每个邻居节点所在的社区，计算分配前与分配后的模块度变化，并记录最大的那个邻居节点，如果，则把节点 i 分配最大的那个邻居节点所在的社区，否则保持不变；
重复 2，直到所有节点的所属社区不再变化；
对图进行压缩，将所有在同一个社区的节点压缩成一个新节点，社区内节点之间的边的权重转化为新节点的环的权重，社区间的边权重转化为新节点间的边权重，然后重复 2，3；
重复 2~4，直到整个图的模块度不再发生变化。