题主算是邀请对人了。
本回答将分为三个部分:
金融风控,可以是对于信贷类金融风控(银行贷款,花呗,信用卡等),也可以是现金支出(刷微信支付余额和支付宝余额)。
信用卡虽然不是贷款,但从业务上,和贷款一样,信用卡属于提前消费,也就是银行或者金融机构给你垫付。所以后面无论讲到信用卡还是贷款,都用”贷前贷中贷后“来方便叙述,希望不会给读者造成太大的概念混淆。
我经常说,领域知识(domain knowledge)是进行特征设计和挖掘的基础。无论你用最简单的逻辑回归模型还是用复杂的深度学习模型,都是一个效果:trash in trash out。所以,理解了业务就能构建有效的特征。金融风控,有“风险”,有“控制”。风险存在于每个阶段,控制也是按照每个阶段的情况来制定策略。
首先讲讲贷前阶段这个阶段。
首先给读者一分钟想想这个阶段的任务。没错,这个阶段的任务就是排除不及格的用户,不让他们拿到贷款或者额度。但是,有的看似及格甚至优良的用户,可能是假的!
在A卡阶段,我们需要预筛选和客户授信。这个阶段如何运用用户行为序列进行特征设计和挖掘呢?
所以我们需要找到一些特征,来:1.判断客户是否存在欺诈。2.对于非欺诈用户,是否有还款能力,如果有,能给用户多少额度。
然后讲讲贷中这个阶段。
依然惯例,首先给读者一分钟想想这个阶段的任务。
没错,这个阶段的任务就是检测用户行为,是否存在异常,例如盗刷,是否出现逾期,是否存在消费情况不正常。如果客户表现好,是否要给客户多点额度,如果客户行为不太好,是否要降低客户的额度。
然后就是贷后阶段。
这也是我这两年来研究最多,最熟悉的阶段。贷后是用户出现了还款逾期,银行或者金融机构进行催收/坏账准备的阶段。
可以看到贷后和贷中有一点业务重叠,就是“监控”这个任务。但贷中更侧重发生逾期前的额度调整,贷后更侧重逾期发生后的催收,如果实在催收不成功,则坏账准备(例如银行通过分析发现,当客户逾期超过180天了,95%的客户会永远还不上钱,则银行认栽,把坏资产打包出售给第三方公司等等)。
由于此回答主要讲用户行为序列,那么非用户行为的特征(例如征信等级,信用评分,是否在黑名单上)这里就不讨论了。
如果你熟悉客户管理/营销,那么你可以听过RFM模型。其中R(Recency)和F(Frequency)都是用户行为序列相关的。这里我们也可以借鉴这个思想。除此之外,还可以构建异常行为特征。总结下在如果需要手动构建特征,一般可以从几个方面入手:
近期类特征。例如最近一次使用信用卡的时间,上一次联系时间,上次逾期时间等。
频率类特征:普通用户为了完成某一任务,通常目的达到动作就会跟着终止,所以正常用户的动作通常是离散和稀疏的。而对于黑产用户而言,为了实现收益的最大化,高频率的动作是降低成本的核心,所以往往黑产用户的动作是连续而紧密的。基于这种理念,频率类的策略在风控中就有着非常重要的作用。考虑频率特征时,通常考虑几个因素,分别是:时间窗口、资源、运算与阈值。
统计类(速度类或者方差类)特征:如果客户某个行为呈现加速状态或者减速状态,那么可能其风险等级也发生改变。例如过去六个月的平均消费金额为1000,但本月消费金额为15000,则显示出了十几倍的加速,这种情况可能说明客户在恶意透支信用额度,更可能是被盗刷。这个速度类特征也可以用方差类特征来代替,例如本次消费金额在过去六个月所有消费里,是否处于 之外。
地理位置的异常偏移:比如ip的归属地和设备的定位差距过大,地理位置变化的速度太快。这说明用户可能通过作弊手段修改定位,使用代理ip等等。这个特征在反盗刷和反欺诈很重要。
分解到贷前中后三个阶段,分别有(这里只讲行为类特征):
贷前可构建这些特征特征(凭着个人回忆写的,未能穷尽,欢迎补充):
贷中特征(凭着个人回忆写的,未能穷尽,欢迎补充):
贷后特征(凭着个人回忆写的,未能穷尽,欢迎补充):
自动特征工程的方法一般你只需要定义输入哪些序列,至于每个序列分别代表什么,你不一定需要商业理解,可以交给深度学习模型来搞定。说实话,这个方法我并没有给客户做过,但我看了一些国内厂商的做法,我可以介绍一下。
例如蚂蚁金服[3],他们是这样做的。不过他们这个并非信贷模型,但其反欺诈的思路值得参考。在反欺诈方面,他们有两个场景:1. 转账到账户场景 ;2.转账到卡场景
例如对场景1,他们的序列包括:
(注:RPC为Remote Procedure Call Protocol,远程过程调用)
他们分别基于8种不同序列建立LSTM模型,将序列隐藏层最后一步输出接一个全连接层最终输出风险分值,将8个序列风险分值与现有变量合并建模,输出最终欺诈风险分。可以看到,其实最后的模型也是一个GBDT模型,虽然得到这些风险分的过程难以解释,但起码在最后一步是用可解释模型的。所以说,可解释性永远是风控逃不开的话题。
如果还想了解更多风控建模、特征工程、工程化实践等方面的内容,可以关注我这个目录