from urllib.request import urlopen url = "http://www.baidu.com" resp = urlopen(url) with open("mybaidu.html", mode="w", encoding="utf-8") as f: f.write(resp.read().decode("utf-8")) print("over!")
之后会把百度的源代码爬下来,放到一个mybaidu.html文件中。
注意:
open这个函数,默认使用的编码解码方式,是我们平台默认的编码方式,windows是gbk。但是百度默认编码方式是utf-8,因此如果不使用encoding="utf-8"进行转换的话,会出现乱码