标签预测模型思路:
通过老用户的静态特征(手机品牌、性别、地域、安装的APP列表),以及用户的兴趣标签tag分数,构造模型预测新用户的兴趣标签tag。
1. 手机品牌组
原始手机品牌非常杂乱,包括各大厂商的子品牌,共计6W个。
取京东上有售的118个手机品牌,从0-118进行编号,其中0为缺省值。
这部分作为一个特征。
2. 地域组
一共237个地区(包括国外地区),由于国外地区人数分布比较多,将其保留,并从0-237进行编号,其中0为缺省值。
这部分作为一个特征。
3. 性别组
包括男性、女性、未知,从0-2进行编号,其中0为缺省值。
这部分作为一个特征。
4. applist组
这部分为128个特征。