爬虫可以简单分为几步:抓取页面、分析页面和存储数据。在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些 Python 库来实现 HTTP请求操作。我们用到的第三方库有 requests、Selenium 等。在本文中,我们介绍一下requests请求库的安装方法。
requests 的安装
由于requests 属于第三方库,也就是Python 默认不会自带这个库,所以需要我们手动安装。下面我们首先看一下它的安装过程。
1.相关链接
GitHub:https://github.com/requests/requests
PyPI: https://pypi.python.org/pypi/requests
官方文档:http://www.python-requests.org
中文文档:http://docs.python-requests.org/zh_CN/latest
2. pip 安装
无论是 Windows,Linux 还是 Mac,都可以通过 pip 这个包管理工具来安装。在命令行界面中运行如下命令,即可完成 requests 库的安装:
pip3 install requests
这是最简单的安装方式,推荐使用这种方法安装。
3.wheel 安装
wheel 是 Python 的一种安装包,其后缀为.whl,在网速较差的情况下可以选择下载 wheel 文件再安装,然后直接用pip3 命令加文件名安装即可。
不过在这之前需要先安装 wheel 库,安装命令如下: pip3 install wheel
然后到PyPI上下载对应的 wheel 文件,如最新版本为 2.25.1则打开 https://pypi.python.org/pypi/requests/2.25.1#downloads,下载 requests-2.25.1-py2.py3-none-any.whl 到本地。
随后在命令行界面进入 whel 文件目录,利用 pip 安装即可:
pip3 install requests-2.25.1-py2.py3-none-any .whl
这样我们也可以完成requests 的安装。
4.源码安装
如果你不想用 pip 来安装,或者想获取某一特定版本,可以选择下载源码安装。此种方式需要先找到此库的源码地址,然后下载下来再用命令安装。
requests 项目的地址是: https:/github.com/kennethreitz/requests。
可以通过Git来下载源代码:
git clone git://github.com/kennethreitz/requests.git
或通过curl下载:
curl -0L https://github.com/kennethreitz/requests/tarball/master
下载下来之后,进入目录,执行如下命令即可安装:
cd requests
python3 setup.py install
命令执行结束后即可完成requests 的安装。由于这种安装方式比较烦琐,后面不再赘述。
5.验证安装
为了验证库是否已经安装成功,可以在命令行模式测试一下:
$python3
>>> import requests
首先输入python3,进入命令行模式,然后输人上述内容,如果什么错误提示也没有,就证明已经成功安装了 requests。