疫情暴发3年多来,电影院已经成为受打击最重的营业场所之一。不通风、长时间聚集等因素叠加,使得影院被想象成一个危险的病毒传染源。虽然影院里至今没有暴发过一次聚集性疫情。并但是每一波疫情到来,电影院总是最先关门、最后开门,潜移默化地大家都觉得,去电影院观影是个非常危险的事情。电影院开始走向“冰点”表面看是因为疫情导致,实质还是有很多其他重要因素。
今天我们就通过python获取豆瓣那些高分电影数据来分析下为什么现在的电影行业萎靡不振,首先我们要收集数据才能进行数据分析。获取数据的主要途径:现成数据、自己用爬虫爬取得到的数据。这里我用python爬取豆瓣高分电影信息,用以获取其中的数据。这里重点讲下在访问豆瓣这种反爬比较严的网站时,我们的爬虫程序反爬措施需要做好,代理IP,随机Ua,cookie等基本措施必不可少。获取数据的简单过程如下:
#! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://httpbin.org/ip" # 要访问的目标HTTPS页面 # targetUrl = "https://httpbin.org/ip" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
数据得到手,我们就需要对我们爬取的数据进行清洗工作,为之后的数据分析做铺垫,如果清洗的不到位势必会对之后的数据分析造成影响。从大家对高分电影的评价里面我们可以看出,由于新媒体带来的丰富资源,中国观众的观影选择和审美水平越来越与国际趋近,高品质娱乐片的缺失,是当下电影市场最引人注目的失衡,同质化的影片容易让观众审美疲劳,影院如果无法提供足够多元的影片类型,就更难有让人走进影院的说服力。
若有收获,就点个赞吧