本数据集来自阿里云 ,数据源地址:https://tianchi.aliyun.com/dataset/dataDetail?dataId=93463,本数据集描述了对Google有利的应用,因为客户提供的应用程序评级始终是应用程序优劣的一个很好的指标,通过数据预测哪些应用程序将获得较高的评价。共包含10841条数据,10个字段,介绍下各个字段:
Rating:评分
App:应用程序名称
Category:类别
Reviews:评论
Size:大小
Installs:安装次数
Type:付费或免费
Price:价格
Content Rating:内容分级(应用针对的年龄组-儿童/ 21岁以上的成年人/成人)
Genres:类型
数据展示
1、每个数据有什么特征?
2、应用评分和什么成正比?
3、评分高的应用有什么特点?
可以看到评分中有1474个数据为空,其他数据不存在缺失值
使用dtale库对数据集进行可视化分析
import dtale import pandas as pd df=pd.read_csv("D:\googleplaystore.csv") dtale.show(df,ignore_duplicate=True)
对评分,大小,付费或免费,价格绘制柱形图
从图中可以看出,大部分的应用是评分在4.5左右,大小因设备而确定,绝大多数是免费的,即使收费,大多数不超过100美元
对安装次数,内容分级,类型绘制柱形图描述
发现,大多数软件安装次数在1000000次以上,内容适合所有人,类型是Tools。
对数据进行分析,观察评分的高的软件有什么特点。
可以看出评分高的应用的大小是Varies with device(因设备而定)的,在其他大小基本分布均匀。
可以看出评分高的软件的下载量都很高基本达到了5000000次以上,符合基本规律好的软件用的人多。
可以看出评分高的软件基本多是不收费的。
可以看出评分高的软件内容分级为everyone。
可以看出评分高的软件类型为 Tools (835), Entertainment (620), Education (547), Medical (463), Business (459), Productivity (424)。
生成词云
可以看出,评分高的软件具有下载量高,大小为Varies with device,不收费,内容分级为everyone。
同时,评分高的软件的类型大多为Tools , Entertainment , Education, Medical , Business, Productivity。