豆瓣电影的探索性分析实现

本文主要是介绍豆瓣电影的探索性分析实现，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

1、数据描述

　　使用python软件对豆瓣电影数据集进行探索性分析

字段描述：

MOVIE_ID: 电影ID，对应豆瓣的DOUBAN_ID
NAME: 电影名称
ALIAS: 别名
ACTORS: 主演
COVER: 封面图片地址
DIRECTORS: 导演
GENRES: 类型
OFFICIAL_SITE: 地址
REGIONS: 制片国家/地区
LANGUAGES: 语言
RELEASE_DATE: 上映日期
MINS: 片长
IMDB_ID: IMDbID
DOUBAN_SCORE: 豆瓣评分
DOUBAN_VOTES: 豆瓣投票数
TAGS: 标签
STORYLINE: 电影描述
SLUG: 加密的url，可忽略
YEAR: 年份
ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“|”符号分割，格式“演员A:ID|演员B:ID”；
DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“|”符号分割，格式“导演A:ID|导演B:ID”；

2、问题描述

　　1、电影的什么对评分影响最大？

　　2、电影的评分、投票数和年份之间有什么关系？

3、数据清洗和预处理

3.1、导入相关数据和数据库

　　导入豆瓣电影数据集

import pandas as pd
import dtale

data=pd.read_csv(r'C:\Users\宋科\Desktop\python作业\movies.csv',encoding='utf-8')
data

3.1、查找缺失值

　　查看数据的缺失值

# 查找缺失值
pd.isnull(data).sum()

运行结果：

　　发现指导教师具有缺失值，需对其进行去除缺失值

3.1.1、删除缺失值所在行

　　删除缺失值

# 删除缺失值所在的行
data.dropna(inplace=True)
data.shape

运行结果：

3.2、去除重复值

　　删除数据的重复值

# 对数据进行去重
import numpy as np
data=data.drop_duplicates()
data

运行结果：

4、各变量相关性数据分析与可视化

　　下面我们借助tale工具，通过可视化的方法进一步了解获奖作品数据集

4.1、可视化

4.1.1、豆瓣评分的直方图

　　从图中可以看出，豆瓣电影数据主要聚集在6.1至8.9评分之间，可以明确看出评分的数量与评分之间的关系

4.1.2、豆瓣投票数的直方图

　　从图中可以看出，豆瓣电影的投票数大致数量区间在19656左右，可以明确看见投票数和数量之间的关系

4.1.3、豆瓣电影年份直方图

　　从图中可以明显的看出，在1997年至2017年电影的数量比较多，可以和清楚的看见年份与电影数量的关系

4.2、相关性分析

　　下面我们将使用散点图对DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性进行分析

4.2.1、DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)相关性

　　从该散点图中可以看出，DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)趋势先上升后又逐渐下降，可以看出大部分电影投票率最高处在9分作用。

4.2.2、DOUBAN_SCORE(豆瓣评分)和YEAR(年份)之间的相关性

　　从该散点图中可以看出，DOUBAN_SCORE(豆瓣评分)和YEAR(年份)趋势不断上升后又逐步下降，可以推测出可能是有一部分烂片充斥者电影市场，导致评分有些下滑趋势。

4.2.3、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性

　　从该散点图中可以看出，DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)趋势不断上升，说明用豆瓣的观众越来越多，后又评价较少，可能观众们在其他平台看电影，不满于只在豆瓣上看电影，可以看出豆瓣的竞争力越来越大。

4.3、图表

　　下面我们借助下面我们借助tale工具，对豆瓣电影进行进一步探索性分析

4.3.1、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的小提图

4.3.2、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的热图

4.3.3、词云图

4.3.4、折线图

5、主要结论

1、从DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)关系性图可以看出，大部分观众都趋向于到9分左右，说明电影还是能够达到大部分观众的肯定。

2、从DOUBAN_VOTES(豆瓣投票数)到YEAR（年份）关系性图可以看出，用豆瓣作为主要平台的人在变少，说明豆瓣拥有许多强大的竞争者。

3、观众大部分都在2000至2010年进行评分投票，可以看出电影在这个年份区间普及率较高

这篇关于豆瓣电影的探索性分析实现的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程

豆瓣电影的探索性分析实现

1、数据描述

2、问题描述

3、数据清洗和预处理

3.1、导入相关数据和数据库

3.1、查找缺失值

3.1.1、删除缺失值所在行

3.2、去除重复值

4、各变量相关性数据分析与可视化

4.1、可视化

4.1.1、豆瓣评分的直方图

4.1.2、豆瓣投票数的直方图

4.1.3、豆瓣电影年份直方图

4.2、相关性分析

4.2.1、DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)相关性

4.2.2、DOUBAN_SCORE(豆瓣评分)和YEAR(年份)之间的相关性

4.2.3、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性

4.3、图表

4.3.1、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的小提图

4.3.2、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的热图

4.3.3、词云图

4.3.4、折线图

5、主要结论

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯