用Python爬取了上万部电影的排名，周末周末好带女神一起去

本文主要是介绍用Python爬取了上万部电影的排名，周末周末好带女神一起去，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

文章目录

一、写在前面
二、准备工作
- 1、使用的软件
- 2、使用的模块
- 3、爬虫思路
- - 1. 明确需求
  - 2. 发送请求 (开发者工具里面headers)
  - 3. 获取数据
  - 4. 解析数据
  - 5. 保存数据
三、代码解析
- 1、导入模块
- 2、创建文件
- 3、获取数据
- 4、解析数据
- 5、写入数据
- 6、输出数据
四、写在最后

一、写在前面

好不容易女神喊我去看电影，但是她问我准备看什么，那我不得好好准备准备~
在这里插入图片描述

二、准备工作

1、使用的软件

python 3.8 （开源免费的）
Pycharm （YYDS python最好用的编辑器不接受反驳…）

软件及安装讲解：软件安装包/安装视频讲解
在这里插入图片描述

2、使用的模块

requests >>> 数据请求模块 pip install requests
parsel >>> 数据解析模块 pipinstall parsel
csv
模块安装：如何安装python模块, python模块安装失败的原因以及解决办法

3、爬虫思路

无论你爬取任何网站数据，都是可以按照这个几步骤来。

1. 明确需求

我们要爬取的内容是什么 https://movie.douban.com/top250
要分析我们的想要数据，可以从哪里获取，哪里来的… (数据来源分析)
用这个开发者工具进行抓包(数据包)分析

静态网页：网页上面看到的数据内容,在网页源代码里面都有
动态网站：抓包分析

2. 发送请求 (开发者工具里面headers)

对于那个网址发送请求，发送什么样的请求，携带那些请求头参数。

3. 获取数据

获取服务器返回的数据内容，看服务器数据格式是什么样的，或者说我们想要的数据是什么样的；
获取文本数据 response.text ；
获取服务器json字典数据 response.json() ；
获取二进制数据 response.content 保存视频/音频/图片/特定格式的文件内容，都是获取二进制数据；

4. 解析数据

提供我们想要的数据内容

5. 保存数据

保存本地
在这里插入图片描述

三、代码解析

1、导入模块

导入一下我们需要用到的模块

import requests  # 数据请求模块 pip install requests
import parsel  # 数据解析模块 pip install parsel
import csv  # 保存表格数据

2、创建文件

快速批量替换全选内容使用正则表达式替换内容

f = open('豆瓣数据.csv', mode='a', encoding='utf-8', newline='')  

csv_writer = csv.DictWriter(f, fieldnames=[
    '电影名字',
    '导演',
    '主演',
    '年份',
    '国家',
    '电影类型',
    '评论人数',
    '评分',
    '概述',
    '详情页',
])
csv_writer.writeheader()

3、获取数据

for page in range(0, 250, 25):
    url = f'https://movie.douban.com/top250?start={page}&filter='
    # headers 请求头 用来伪装python代码 为了防止爬虫程序被服务器识别出来,
    # User-Agent 浏览器的基本标识 用户代理 直接复制粘贴的
    # 披着羊皮的狼  爬虫程序 >>> 狼  headers >>> 羊皮  服务器数据 >>> 羊圈
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }
    # 发送请求 get
    # 通过requests数据请求模块里面get请求方法 对于 url以及发送请求并且携带header请求头, 最后用response变量接收返回数据
    response = requests.get(url=url, headers=headers)
    # 获取数据
    # print(response.text)
    # 解析数据 re正则表达式 css选择器 xpath 那一种更方便 更加舒服 就用哪一个
    # json 键值对取值
    # 提取我们想要的数据内容
    # 把获取下来的 response.text 网页字符串数据 转成selector 对象
    selector = parsel.Selector(response.text)
    # <Selector xpath=None data='<html lang="zh-CN" class="ua-windows ...'> 对象
    # css选择器 根据标签属性提取数据
    # 第一次解析数据, 获取所有li标签
    lis = selector.css('.grid_view li')  # css选择器语法
    # selector.xpath('//*[@class="grid_view"]/li') # xpath写法
    # [] 列表, 如果说我想要一一提取列表里面的元素 怎么做?

4、解析数据

for li in lis:
    try:
        # span:nth-child(1) 组合选择器  表示的选择第几个span标签
        # 1 选择第一个span标签 text 获取标签文本数据
        title = li.css('.hd a span:nth-child(1)::text').get()
        href = li.css('.hd a::attr(href)').get()  # 详情页
        # li.xpath('//*[@class="hd"]/a/span(1)/text()').get()
        # get返回字符串数据 getall 是返回列表数据
        # get获取第一个标签数据 getall 获取所有的
        move_info = li.css('.bd p::text').getall()
        actor_list = move_info[0].strip().split('   ')  # 列表索引位置取值
        # print(actor_list)
        date_list = move_info[1].strip().split('/')  # 列表索引位置取值
        director = actor_list[0].replace('导演: ', '').strip()  # 导演
        actor = actor_list[1].replace('主演: ', '').replace('/', '').replace('...', '') # 演员
        date = date_list[0].strip()  # 年份
        country = date_list[1].strip()  # 国家
        move_type = date_list[2].strip()  # 电影类型
        comment = li.css('.star span:nth-child(4)::text').get().replace('人评价', '')  # 评论人数
        star = li.css('.star span:nth-child(2)::text').get()  # 星级
        world = li.css('.inq::text').get()  # 概述
        # 字符串的高级方法
        # replace() 字符串替换的方法  strip() 去除字符串左右两端的空格 split() 分割 之后返回的列表
        # 字符串如何去除空格呢?
        # print(title, actor_list, date_list)
        dit = {
            '电影名字': title,
            '导演': director,
            '主演': actor,
            '年份': date,
            '国家': country,
            '电影类型': move_type,
            '评论人数': comment,
            '评分': star,
            '概述': world,
            '详情页': href,
        }

5、写入数据

csv_writer.writerow(dit)

6、输出数据

    print(title, director, actor, date, country, move_type, comment, star, world, href, sep=' | ')
except:
    pass

所有代码

所有代码我就没写到目录里面，奖励给全部看完的你，不然有些人看到目录就直接点过来看全部代码了，哈哈~

在这里插入图片描述

import requests  
import parsel  
import csv  

f = open('豆瓣数据.csv', mode='a', encoding='utf-8', newline='')  
csv_writer = csv.DictWriter(f, fieldnames=[
    '电影名字',
    '导演',
    '主演',
    '年份',
    '国家',
    '电影类型',
    '评论人数',
    '评分',
    '概述',
    '详情页',
])
csv_writer.writeheader()

for page in range(0, 250, 25):
    url = f'https://movie.douban.com/top250?start={page}&filter='

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
    }

    response = requests.get(url=url, headers=headers)
    selector = parsel.Selector(response.text)
    lis = selector.css('.grid_view li')  # css选择器语法

    for li in lis:
        try:

            title = li.css('.hd a span:nth-child(1)::text').get()
            href = li.css('.hd a::attr(href)').get()  # 详情页

            move_info = li.css('.bd p::text').getall()
            actor_list = move_info[0].strip().split('   ')  # 列表索引位置取值

            date_list = move_info[1].strip().split('/')  # 列表索引位置取值
            director = actor_list[0].replace('导演: ', '').strip()  # 导演
            actor = actor_list[1].replace('主演: ', '').replace('/', '').replace('...', '') # 演员
            date = date_list[0].strip()  # 年份
            country = date_list[1].strip()  # 国家
            move_type = date_list[2].strip()  # 电影类型
            comment = li.css('.star span:nth-child(4)::text').get().replace('人评价', '')  
            star = li.css('.star span:nth-child(2)::text').get()  # 星级
            world = li.css('.inq::text').get()  # 概述

            dit = {
                '电影名字': title,
                '导演': director,
                '主演': actor,
                '年份': date,
                '国家': country,
                '电影类型': move_type,
                '评论人数': comment,
                '评分': star,
                '概述': world,
                '详情页': href,
            }
            csv_writer.writerow(dit) 

            print(title, director, actor, date, country, move_type, comment, star, world, href, sep=' | ')
        except:
            pass

注释对照前面，完整代码不给注释，为了你们认真学习我真的是挠破脑袋了。
在这里插入图片描述

四、写在最后

最后当然是老规矩，视频教程安排上。

【Python爬虫】女神问我周末去看什么电影，当时我就把热门电影排行爬了一遍，冲冲冲！

大家看完记得来个三连，你的给力就是我的动力~
在这里插入图片描述

这篇关于用Python爬取了上万部电影的排名，周末周末好带女神一起去的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python教程

用Python爬取了上万部电影的排名，周末周末好带女神一起去

文章目录

一、写在前面

二、准备工作

1、使用的软件

2、使用的模块

3、爬虫思路

1. 明确需求

2. 发送请求 (开发者工具里面headers)

3. 获取数据

4. 解析数据

5. 保存数据

三、代码解析

1、导入模块

2、创建文件

3、获取数据

4、解析数据

5、写入数据

6、输出数据

四、写在最后

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯