【Python爬虫】尺度太大了！爬一个专门看小姐姐的网站，写一段紧张刺激的代码（附源码）

本文主要是介绍【Python爬虫】尺度太大了！爬一个专门看小姐姐的网站，写一段紧张刺激的代码（附源码），对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

前言

今天我们通过Python爬取小姐姐图片网站上的美图，零基础学会通用爬虫，当然我们还可以实现多线程爬虫，加快爬虫速度

环境介绍

python 3.6
pycharm
requests >>> pip install requests
re
time
concurrent.futures

【付费VIP完整版】只要看了就能学会的教程，80集Python基础入门视频教学

爬虫最基本思路

爬取单个相册内容:

找到目标 https://https://www.kanxiaojiejie.com/img/6509
发送请求 (人为操作: 访问网站)
获取数据 (HTML代码就是服务器返回的数据)
数据提取 (筛选里面的内容)
HTML网页代码
保存数据 (把图片下载下来)

目标网站

简单的通用爬虫代码

import requests
import parsel
import re
import os

page_html = requests.get('https://www.kanxiaojiejie.com/page/1').text
pages = parsel.Selector(page_html).css('.last::attr(href)').get().split('/')[-1]
for page in range(1, int(pages) + 1):
    print(f'==================正在爬取第{page}页==================')
    response = requests.get(f'https://www.kanxiaojiejie.com/page/{page}')
    data_html = response.text
    # 提取详情页
    zip_data = re.findall('<a href="(.*?)" target="_blank"rel="bookmark">(.*?)</a>', data_html)
    for url, title in zip_data:
        print(f'----------------正在爬取{title}----------------')
        if not os.path.exists('img/' + title):
            os.mkdir('img/' + title)
        resp = requests.get(url)
        url_data = resp.text
        selector = parsel.Selector(url_data)
        img_list = selector.css('p>img::attr(src)').getall()

        for img in img_list:
            img_data = requests.get(img).content
            img_name = img.split('/')[-1]
            with open(f"img/{title}/{img_name}", mode='wb') as f:
                f.write(img_data)
            print(img_name, '爬取成功！！！')
        print(title,'爬取成功！！！')

升级多线程版本

把每一块都封装一个函数, 每个函数都有它特定的功能

先导入模块

import requests # 第三方模块 pip install requests
import re # 正则表达式模块 内置模块
import time
import concurrent.futures
import os
import parsel

发送请求

def get_response(html_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
    }
    # 为什么这里要 requests.get()  post() 请求会更安全...
    response = requests.get(url=html_url, headers=headers)
    return response

保存数据

def save(title, img_url):
    img_data = requests.get(img_url).content
    img_name = img_url.split('/')[-1]
    with open("img\\" + title + '\\' + img_name, mode='wb') as f:
        f.write(img_data)

解析数据获取图片url地址以及标题

def parse_1(data_html):
    zip_data = re.findall('<a href="(.*?)" target="_blank"rel="bookmark">(.*?)</a>', data_html, re.S)
    return zip_data

解析数据获取图片url地址以及标题

def parse_2(html_data):
    selector = parsel.Selector(html_data)
    img_list = selector.css('p>img::attr(src)').getall()
    return img_list

创建文件夹

def mkdir_img(title):
    if not os.path.exists('img\\' + title):
        os.mkdir('img\\' + title)

主函数

def main(html_url):
    html_data = requests.get(html_url).text
    zip_data = parse_1(html_data)
    for url, title in zip_data:
        mkdir_img(title)
        html_data_2 = get_response(url).text
        img_list = parse_2(html_data_2)
        for img in img_list:
            save(title, img)
        print(title, '爬取成功！！！')

程序的入口

if __name__ == '__main__':
    time_1 = time.time()
    exe = concurrent.futures.ThreadPoolExecutor(max_workers=10)
    for page in range(1, 11):
        url = f'https://www.kanxiaojiejie.com/page/{page}'
        exe.submit(main, url)
    exe.shutdown()
    time_2 = time.time()
    use_time = int(time_2) - int(time_1)
    print(f'总计耗时:{use_time}秒')

总耗时：80秒

对于本篇文章有疑问，或者想要数据集的同学也加资料分享解答群：1039649593

这篇关于【Python爬虫】尺度太大了！爬一个专门看小姐姐的网站，写一段紧张刺激的代码（附源码）的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python教程

【Python爬虫】尺度太大了！爬一个专门看小姐姐的网站，写一段紧张刺激的代码（附源码）

前言

环境介绍

【付费VIP完整版】只要看了就能学会的教程，80集Python基础入门视频教学

爬虫最基本思路

目标网站

简单的通用爬虫代码

升级多线程版本

把每一块都封装一个函数, 每个函数都有它特定的功能

先导入模块

发送请求

保存数据

解析数据获取图片url地址以及标题

解析数据获取图片url地址以及标题

创建文件夹

主函数

程序的入口

总耗时：80秒

对于本篇文章有疑问，或者想要数据集的同学也加资料分享解答群：1039649593

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯

【Python爬虫】尺度太大了！爬一个专门看小姐姐的网站，写一段紧张刺激的代码（附源码）

前言

环境介绍

【付费VIP完整版】只要看了就能学会的教程，80集Python基础入门视频教学

爬虫最基本思路

目标网站

简单的通用爬虫代码

升级 多线程版本

把每一块都封装一个函数, 每个函数都有它特定的功能

先导入模块

发送请求

保存数据

解析数据 获取图片url地址以及标题

解析数据 获取图片url地址以及标题

创建文件夹

主函数

程序的入口

总耗时：80秒

对于本篇文章有疑问，或者想要数据集的同学也加资料分享解答群：1039649593

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯

升级多线程版本

解析数据获取图片url地址以及标题

解析数据获取图片url地址以及标题