之前《python信用评分卡建模(附代码)》介绍了逻辑回归评分卡模型的各个细节,包括各种分箱方法,woe和iv原理和Excel保姆级推导,变量badrate单调性,坏客户定义,逻辑回归调参等等。因此今天不谈论这些问题。
今天想深入谈谈逻辑回归模型的优点和缺点。逻辑回归自从上个世纪应用以来,已经有几十年时间,可谓成熟算法,深受大家喜爱。我本人是绝对支持逻辑回归的,特别是评分卡算法,在多算法比较中,表现优异,模型性能卓越。
但很多初学者学员经过多算法比较后,思维有种误区,认为A算法一定优于B算法。很多机器学习算法没有优劣之分,只有何时使用之分。只有经验丰富建模人员深知在什么情况使用什么算法。
逻辑回归是线性模型,然后用sigmoid函数加个壳,用于二分类模型。线性模型是对自然界的简化概况,但不是全部概况。自然界是复杂的,逻辑回归不能100%完美解读。
物理学中有著名的量子纠缠理论。薛定谔猫是个经典案例。把一只猫、一个装有氰化氢气体的玻璃烧瓶和放射性物质放进封闭的盒子里。当盒子内的监控器侦测到衰变粒子时,就会打破烧瓶,杀死这只猫。根据量子力学的哥本哈根诠释,在实验进行一段时间后,猫会处于又活又死的叠加态。
同样在一个模型中的变量在不同条件下也可能发生不同性质。例如收入变量,很多学员认为这个变量badrate一定单调,这只是一厢情愿。一般情况下,收入越高,偿还债务能力越强,违约率越低。但有些高收入者,负债率也高,因此违约率也高。那么按照逻辑回归线性思路,你认为收入变量是定义为正向还是负向?收入变量也是由量子纠缠的,低违约率和高违约率的情况是同时存在的。
生物领域中,很多医生说幽门螺旋菌是个坏家伙,是胃癌元凶。我只能说兄弟,你太单纯了。事实上,很多正常人肠胃里携带幽门螺旋菌,特别是亚洲人,他们临床上没有任何病症表现。幽门螺杆菌是可以吸收多余胃酸的,缓解食管反流。同时幽门螺旋菌在某些条件下也会搞事,造成胃炎,胃溃疡,胃癌。因此幽门螺旋菌也有量子纠缠,它既有对人体好的一面,也有对人体坏的一面,这两种性质是共存的。
如果你用逻辑回归的线性思维来认知世界,那肯定是不够的。熵理论是个好东西,弥补了逻辑回归的不足。我建议你使用逻辑回归算法同时试试决策树相关模型。决策树模型思维更接近临床医学。最好方式是结合逻辑回归和决策树相关模型。
当然还有很多优秀模型可以辅助我们进一步认知这个世界,由于时间关系,不一一介绍。
变量之间是有交互影响的,并非真正互相独立。统计学很多理论是建立在变量相互独立,在现实生活中是做不到的。两个变量会产生至少2*2的四维空间,每个空间的情况都可能不一样,并非逻辑回归线性思维能概况。
总结一下,逻辑回归是个非常优秀模型,可以简单概况和认知我们的世界。基于世界本身复杂性,我们可以结合更多算法辅助我们认知这个世界。
欢迎关注《python金融风控评分卡模型和数据分析(加强版)》,学习评分卡,集成树,神经网络算法等系统化风控建模内容。
版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。