python爬虫实战：之爬取京东商城实例教程！（含源代码）

本文主要是介绍python爬虫实战：之爬取京东商城实例教程！（含源代码），对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

前言：

本文主要介绍的是利用python爬取京东商城的方法，文中介绍的非常详细，下面话不多说了，来看看详细的介绍吧。

主要工具

scrapy
BeautifulSoup
requests

分析步骤

1、打开京东首页，输入裤子将会看到页面跳转到了这里，这就是我们要分析的起点

2、我们可以看到这个页面并不是完全的，当我们往下拉的时候将会看到图片在不停的加载，这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了60条裤子的信息，我们打开chrome的调试工具，查找页面元素时可以看到每条裤子的信息都在<li class='gl-item'></li>这个标签中，如下图：

python爬虫实战：之爬取京东商城实例教程！（含源代码）

3、接着我们打开网页源码就会发现其实网页源码只有前30条的数据，后面30条的数据找不到，因此这里就会想到ajax，一种异步加载的方式，于是我们就要开始抓包了，我们打开chrome按F12，点击上面的NetWork,然后点击XHR,这个比较容易好找,下面开始抓包，如下图：

python爬虫实战：之爬取京东商城实例教程！（含源代码）

4、从上面可以找到请求的url，发现有很长的一大段，我们试着去掉一些看看可不可以打开，简化之后的：

python爬虫实战：之爬取京东商城实例教程！（含源代码）

这里的showitems是裤子的id,page是翻页的，可以看出来我们只需要改动两处就可以打开不同的网页了，这里的page很好找，你会发现一个很好玩的事情，就是主网页的page是奇数，但是异步加载的网页中的page是偶数，因此这里只要填上偶数就可以了，但是填奇数也是可以访问的。这里的show_items就是id了，我们可以在页面的源码中找到，通过查找可以看到id在li标签的data-pid中，详情请看下图：

python爬虫实战：之爬取京东商城实例教程！（含源代码）

上面我们知道怎样找参数了，现在就可以撸代码了

代码讲解：

1、首先我们要获取网页的源码，这里我用的requests库，安装方法为pip install requests，代码如下:

python爬虫实战：之爬取京东商城实例教程！（含源代码）

2、根据上面的分析可以知道，第二步就是得到异步加载的url中的参数show_items,就是li标签中的data-pid,代码如下：

python爬虫实战：之爬取京东商城实例教程！（含源代码）

3、下面就是获取前30张图片的url了，也就是主网页上的图片，其中一个问题是img标签的属性并不是一样的，也就是源码中的img中不都是src属性，一开始已经加载出来的图片就是src属性，但是没有加载出来的图片是data-lazy-img，因此在解析页面的时候要加上讨论。

代码如下：

python爬虫实战：之爬取京东商城实例教程！（含源代码）

前三十张图片找到了，现在开始找后三十张图片了，当然是要请求那个异步加载的url，前面已经把需要的参数给找到了，下面就好办了，直接贴代码：

python爬虫实战：之爬取京东商城实例教程！（含源代码）

4、通过上面就可以爬取了，但是还是要考虑速度的问题，这里我用了多线程，直接每一页面开启一个线程，速度还是可以的，感觉这个速度还是可以的，几分钟解决问题，总共爬取了100个网页,这里的存储方式是mysql数据库存储的，要用发哦MySQLdb这个库，详情自己百度。想要的源码的朋友可以在后台私信我！

以上就是本文的全部内容啦！

这篇关于python爬虫实战：之爬取京东商城实例教程！（含源代码）的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Python教程

python爬虫实战：之爬取京东商城实例教程！（含源代码）

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯