网络爬虫的第一步就是根据URL,获取网页的HTML信息。在Python3中,可以使用urllib.request和requests进行网页爬取。
使用requests库获取网页的HTML信息。requests库的github地址:https://github.com/requests/requests
在cmd中,使用如下指令安装requests:
pip install requests
requests.get()方法,它用于向服务器发起GET请求,requests.get()方法就是从服务器得到、抓住数据,也就是获取数据。
# -*- coding:UTF-8 -*- import requests if __name__ == '__main__': target = 'http://gitbook.cn/' req = requests.get(url=target) print(req.text)
requests.get()方法必须设置的一个参数就是url,因为我们得告诉GET请求,我们的目标是谁,我们要获取谁的信息。