python金融大数据风控建模实战: 基于机器学习
王青天 孔越
Fintech基于大数据、云计算和人工智能等 全面运用于支付清算、借资、财富管理、零售银行、保险、交易结算六大金融领域
智能风控——风险控制。进行风险控制的关键在于解决信息不对称性 信用评分卡
全书共15章 分为4篇
1)智能风控背景
2)评分卡理论与实战基础 数据集成、清洗与预处理;变量编码;变量分箱;变量选择;Logistic回归模型;模型评估;评分卡分数转化;模型在线监控
3)评分卡理论与实战进阶
4)Lending Club 数据集实战
一
2008年全球金融危机后,严格的监管增加了银行的合规业务和成本,并限制了信贷规模。
实时的传感器和可视化技术可以让公司密切检控与金融相关的客户活动
行为评分卡:对通过审核的借款人进行行为风险评估,利用借款人的历史数据与行为特征,预测借款人在未来一段时间内发生违约的概率。
模型的选择依据要从建模的数据量、模型的可解释性要求、模型的实时性要求等方面综合考虑。
如果数据量大,不建议使用支持向量机模型,因为SVM需要进行核函数映射,数据量大时映射矩阵巨大,非常耗时,建议考虑树模型或神经网络模型。
如果要求模型可解释,即需要做业务解释,则尽量不要选用黑箱模型,如神经网络、集成模型等。而选用Logistic回归模型或决策树模型。
如果不要求模型可解释。而只要求模型的性能最优,那么可以采用集成模型、深度学习模型做迭代优化。设置好指标采用嵌套的交叉验证,就可以完成模型参数优化与模型选择。
模型评估:与模型训练紧密相连,在模型训练时往往将数据分为三部分:训练集、验证集和测试集。
二
AI的决策“大脑”——机器学习的相关理论,以及一些概念对比。
深度学习属于机器学习的一种算法——神经网络算法的拓展,它将网络从宽而浅的设计思路改为窄而深的发展方向,同时,改进了学习策略,使训练得以实现。
机器学习是一种多领域交叉学科,涉及概率论、统计学、逼近论、凸优化、计算复杂性理论等多门学科。训练和预测 建模流程:数据清洗、特征工程、模型训练和参数优化、模型上线运行。(深度学习去掉了特征工程这一过程)这正是深度学习的理念:一种端到端的学习方式,即让算法自动完成特征工程的工作,然后进行模型训练,开发者只要更关注参数优化即可得到效果很好的模型。
1)独立同分布数据:指样本间在时间上没有i=相互关联。每个样本的行为不受其他样本影响。
2)时序数据:样本间有较强的关系,单指在时间上,即当前样本的状态与历史的一个或多个状态有关,样本间不是相互独立的。
传统的机器学习中处理时序数据的方法有ARMA和HMM模型。
在深度学习中用RNN网络和LSTM网络处理时许数据,其模型表现非常出色,并且不需要人工特征工程,其模型可以自行提取特征,实现端到端的学习过程。
3) 图像与视频数据
图像识别任务在深度学习醍出之前就一直存在,传统机器学习处理这类。深度学习主要是DNN、CNN、RNN、LSTM网络及相互结合而形成的混合网络。
数据清洗与预处理过程主要包括删除缺失值比例高的变量即方差较小的变量,并进行描述性统计分析。此外,描述性统计分析中,可以通过可视化方法观察是否存在异常值,当然也可以通过算法进行异常值检测,如单变量的异常值可以用箱线图方法,而多变量的检测方法用DBSCAN、LOF或所及森两=林方法等。
特征工程:是一个非常复杂的过程,包括离散变量编码、连续变量分箱、变量衍生、样本不均衡处理、变量选择等。
数据集成:将多个数据源的数据构成一个统一的数据结构或数据表的过程。
EDA:是一种通过计算统计量、数据可视化等方法,快速了解原始数据结构与过滤的一种数据分析方法。NOTE:有时,日期变量由于数据集成时采用了不同的数据源,也会出现是字符串类型的情况。因此,需要人为校验变量性质区分是否存在问题,如果不合理需要进行修正。
只有连续变量才需要处理异常值。(在反欺诈模型中,异常值是非常重要的特征。)
变量分箱:是一种特征工程方法,意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量,对于变量取值较稀疏的离散变量也应该进行分箱处理。降低异常值的影响,增加模型的稳定性。变量分箱的目的是增加变量的预测能力或减少变量的自身冗余。是一个优化过程。优化的目标函数可以是卡方值、KS值、IV、WOE值、信息熵和Gini值等。
决策树模型:是一组IF-THEN规则组成的集合。规则:以数的形式展现。
项目。