陈磊 中生代技术 2017-10-25
普惠金融的发展遇到移动化的浪潮,使得消费信贷迎来了高速攀升期,同时也给风控带来了巨大的挑战,即在额度区间广、借贷频次高、客群下沉情况下,如何实现风险可控、差异化定价、快速审批。幸而大数据和AI技术使得这一切变为可能,拍拍信一直在做这方面的探索,旨在整合数据资源、充分发掘数据潜在价值,帮助金融机构伙伴搭建和优化风控系统,本次陈磊将分享相关的实践经验和落地案例。
编辑:Lydia
陈磊:拍拍信(PPCredit)数据科学副总裁, 上海交通大学EE硕士,曾任职eBay分析经理,Opera Solutions分析总监。作为数据行业老兵,拥有超过十年的数据管理和统计挖掘经验,为电信、零售、金融等行业客户提供端到端数据分析和产品解决方案,在数据+技术驱动业务领域有丰富的积累。
拍拍信数据服务(上海)有限公司(以下简称“拍拍信”)是一家互联网大数据服务公司。
拍拍信于2016年3月8日正式成立,目前专注于数据挖掘和大数据信贷风控能力的输出,已成为行业内不可小觑的新生力量。2017年公司荣获2017金融科技影响力品牌奖,自主研发的大数据金融反欺诈风控平台获评上海科技型企业技术创新项目。
当前消费金融规模持续增长,风险控制的挑战也与日俱增。
陈磊老师现场分享
请参见一个风控系统的雏形框架,涵盖了用户贷前和贷后的流程。
信息是为决策提供主要支撑。在信贷业务中,信息四要素是姓名、身份证、手机号、银行卡号。
比如在信息采集上,我们会用AI的技术来提取相关信息,比如OCR,用拍照的方式来提供身份证、银行卡号的信息。这样做的优点显而易见——提高用户体验,效率快,避免伪造的情况。
整个闭环模式中,我们会根据不同的客户发起不同的策略,对于优质客户会提高额度,同时我们也会避免不良资产导致坏账而采取措施。
风险流程就是一个数据的流程,包含数据的采集,消化、回收、落地。
离开数据,风控就是无水之源。
传统的风控数据就是征信类的数据,很显然,这是远远不够的。那么新型时代的发展也让我们有新的思考,有哪些数据可以为我们的风控作补充。
理想化的数据就是覆盖率高,又和风险高度相关的。
这里我们借用金字塔模式来介绍的可用数据:
我们在数据大爆炸的年代,什么样的数据都可以使用。
但是怎么使用,确实一个挑战。
这些挑战来源于以下几个维度:
在传统银行的风控体系中,无论是采用机器学习,还是人工标记,都需要专家来看怎么去做,如何做才能发挥作用。
鉴于特征提取都是以人为主,这就难免会有局限性,很多高维度、宽广度的数据衍生出来新的特征就很难用经验进行捕捉。
下图是google在使用的一个专家+机器的特征工程模型框架:
左边是比较明显的广度特征,专家可以凭经验直接提取
中间广度加深度模型,一些不易解读的数据需要加工重构才能得以解读
右面是需要深层挖掘、层层解析后才会出来的特征
下面是一份团案信息图谱的案例:
信息图谱在业务上的所反映的问题,在于最原始的出发点是什么, 什么形式关联,在关联上有什么途径。一层关联比较简单,怎样能够发现多层关联才更为关键。
从聚合数据的输出与查询,可以看出一步关联与二次关联的数据联系。
而更深层次的特征查询,能对关系网络形态位置,把非结构化的关系网络转化为一般模型可以能吸收并消化的特征向量,从而检测到异常客户。
以上讲了很多特征提取。下面是阐述如何落地,从图中模型可以看出,主要流程是对不同的数据源做不同的数据提取,抽象到几个风险因子,进而提炼出综合风险指数,化繁为简。
在风控体系中,我们追求准确性,同时也强调健壮性。
准确性是指特征的抽象与提取,那么健壮性就是指时间维度上的有效性、场景迁移的可扩展性。