对于用户何时会流失、为什么会流失,是无论电商平台、时租服务、新零售业务、电子游戏领域都十分关注的点。
一般用户流失
定义为,有一段时间(一般是平均用户获取服务次数的N倍
时长)没有再次获取服务。随行业不同,市场会不一样,但对于流失
的语义都是 以后基本都不会再次再本平台获取服务。
在建模时,很多人会认为我把最终想要的目的
作为结果放进模型就能导出结果。但如果我们想要把一种组合的结果作为目的
,很容易会造成逻辑错误,例如:
3次
均为 1
的概率是 1 / 2161
,那么连续 3次
均掷到 1
的概率就是 1 / 6联系到流失用户的语境,我们在分析一款手机游戏的用户流失时
首次登录
到流失
的可能是 1 / 2163天
内不登陆游戏然后流失的概率是 1 / 6这时候就是两个不同的问题
3天
的行为数据(游戏内行为、有无登陆行为)后作出他是否会有流失概率对于问题1
,其实十分简单,只需要做个人群分类便可以得到一个结果,甚至不需要进行模型训练(模型训练只是为了得出延展属性,如非常规统计等直观的信息),只需要统计数据就能完成。
假设对应于社区团购超市超过3个月无购物
就算是该客户的流失,且预测周期是以周
为单位,我们拥有每个客户在最近一年一系列行为指标(购物、访问平台、出行、聊天)以及属性(性别、年龄、婚否)进行建模,考虑:
上周
刚有购物记录的人为下周
流失用户强相关
指标而降低其他所有指标属性的影响力综上得出,只要你的问题是 该用户是否为流失用户
时,这一逻辑就会被问题变成非自洽问题。
如果以另外一种方式去提问:
哪些用户会在下周
进行消费
?
这种问题很容易会被一个客户的属性、指标进行回答,且逻辑是自洽的。
同时我们把这些客户恰好能跟 用户上一次消费是否在最近2个月3周内 组合成为判断是否潜在流失
客户的判断旗帜。
我们可以考虑以下数据:
在100个游戏玩家之中,有93个玩家在本周
被定义为流失玩家(定义为最近3周均无进行游戏就是流失),而通过对他们上周时行为指标及属性判断他们100个人都是流失玩家,最终得分如下图:
哇!好高分啊。
可是,其实我们判断的条件很简单,只需要看他在前两周有无进行游戏,如果无则预判为流失玩家
。
其实这也引申出另一个问题
关于此类问题网上有很多解决办法,可以参考如:
机器学习中非均衡数据集的处理方法?
《机器学习实战》:非均衡分类问题(召回率/ROC/AUC/采样方法)