根据下面的网站进行的学习
https://work.datafountain.cn/forum?id=67&type=2
一般情况下拿到数据进行分析,首先要对数据进行预处理,根据经典的特征工程选取相应的特征向量,前几步一般都是一样的,然后进行模型训练与数据预测,最后进行决策分析。
首先要导入一些机器学习的包,要好好学习这些库的使用方法哦。
一、首先要导入数据,读取数据,
当然也要检查数据是否有重复的或者缺失的
删除有缺失的数据
二、开始进行特征工程,选取那些必要特征进行分析,这些特征的选取要根据经验,哈哈哈
选取了这五个特征,并给他们赋予了新的列名
特征选取完成后要对这些特征进行标准化处理,因为,为使每个特征对整体的影响权重差不多
标准化完成后,要进行数据训练了,用聚类中的k-means方法,这个会产生聚类中心,根据聚类中心的数据,然后画雷达图,进行分析
训练完成后,主要是以每一类聚类中心的数据进行,画雷达图,雷达图一般要用pyecharts进行画雷达图,但还没有学会,用了一种比较笨的方法画雷达图。一个一个的画出来,然后进行拼接。
差不多就是这样。
然后再用层次聚类的方法画雷达图,层次聚类的方法没有聚类中心,所以要自己去找聚类中心,训练完成后,要找出每一类的数据,然后取平均算做每一类的聚类中心点,这样就可以画雷达图了,
因为电脑跑不起来,,,所以只选了一千个数据进行训练,采用的曼哈顿距离方法
查看分类情况
第一类求出的聚类中心
a=np.mean(x0,axis=0)
然后把这五类连接起来。然后画雷达图。
谱系聚类的,也要先找聚类中心,然后和层次聚类打开