使用python软件对豆瓣电影数据集进行探索性分析
字段描述:
MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
NAME: 电影名称
ALIAS: 别名
ACTORS: 主演
COVER: 封面图片地址
DIRECTORS: 导演
GENRES: 类型
OFFICIAL_SITE: 地址
REGIONS: 制片国家/地区
LANGUAGES: 语言
RELEASE_DATE: 上映日期
MINS: 片长
IMDB_ID: IMDbID
DOUBAN_SCORE: 豆瓣评分
DOUBAN_VOTES: 豆瓣投票数
TAGS: 标签
STORYLINE: 电影描述
SLUG: 加密的url,可忽略
YEAR: 年份
ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“|”符号分割,格式“演员A:ID|演员B:ID”;
DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“|”符号分割,格式“导演A:ID|导演B:ID”;
1、电影的什么对评分影响最大?
2、电影的评分、投票数和年份之间有什么关系?
导入豆瓣电影数据集
import pandas as pd import dtale data=pd.read_csv(r'C:\Users\宋科\Desktop\python作业\movies.csv',encoding='utf-8') data
查看数据的缺失值
# 查找缺失值 pd.isnull(data).sum()
运行结果:
发现指导教师具有缺失值,需对其进行去除缺失值
删除缺失值
# 删除缺失值所在的行 data.dropna(inplace=True) data.shape
运行结果:
删除数据的重复值
# 对数据进行去重 import numpy as np data=data.drop_duplicates() data
运行结果:
下面我们借助tale工具,通过可视化的方法进一步了解获奖作品数据集
从图中可以看出,豆瓣电影数据主要聚集在6.1至8.9评分之间,可以明确看出评分的数量与评分之间的关系
从图中可以看出,豆瓣电影的投票数大致数量区间在19656左右,可以明确看见投票数和数量之间的关系
从图中可以明显的看出,在1997年至2017年电影的数量比较多,可以和清楚的看见年份与电影数量的关系
下面我们将使用散点图对DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性进行分析
从该散点图中可以看出,DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)趋势先上升后又逐渐下降,可以看出大部分电影投票率最高处在9分作用。
从该散点图中可以看出,DOUBAN_SCORE(豆瓣评分)和YEAR(年份)趋势不断上升后又逐步下降,可以推测出可能是有一部分烂片充斥者电影市场,导致评分有些下滑趋势。
从该散点图中可以看出,DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)趋势不断上升,说明用豆瓣的观众越来越多,后又评价较少,可能观众们在其他平台看电影,不满于只在豆瓣上看电影,可以看出豆瓣的竞争力越来越大。
下面我们借助下面我们借助tale工具,对豆瓣电影进行进一步探索性分析
1、从DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)关系性图可以看出,大部分观众都趋向于到9分左右,说明电影还是能够达到大部分观众的肯定。
2、从DOUBAN_VOTES(豆瓣投票数)到YEAR(年份)关系性图可以看出,用豆瓣作为主要平台的人在变少,说明豆瓣拥有许多强大的竞争者。
3、观众大部分都在2000至2010年进行评分投票,可以看出电影在这个年份区间普及率较高