Java教程

01-第一个爬虫程序

本文主要是介绍01-第一个爬虫程序,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
from urllib.request import urlopen

url = "http://www.baidu.com"
resp = urlopen(url)

with open("mybaidu.html", mode="w", encoding="utf-8") as f:
    f.write(resp.read().decode("utf-8"))

print("over!")

之后会把百度的源代码爬下来,放到一个mybaidu.html文件中。

注意:

open这个函数,默认使用的编码解码方式,是我们平台默认的编码方式,windows是gbk。但是百度默认编码方式是utf-8,因此如果不使用encoding="utf-8"进行转换的话,会出现乱码

这篇关于01-第一个爬虫程序的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!