获取文章《HTTP状态响应码》全部内容,并且打印出全文内容。
文章链接地址:
https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise /HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md
练习获取网上的文本文件。
第一次编译运行的时候报了如下错误,CSDN过后,在评论区发现了解决问题的方法:开了代理才会导致报如下错误,关闭代理即可。
ValueError: check_hostname requires server_hostname
在此附上CSDN博文链接:
传送门
''' Author: Gu Jiakai Date: 2021-07-11 14:45:27 LastEditTime: 2021-07-11 15:03:38 LastEditors: Gu Jiakai Description: FilePath: \第0关-初识爬虫\习题再练-文章下载.py ''' import requests#引入requests库。 #文章链接。 url1='https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md' # requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求, # 括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。 # 把响应返回的结果赋值给变量res。 res=requests.get(url1) #打印状态码,检查请求是否成功。 print(res.status_code) # 把response对象转换为字符串数据。 content=res.text # Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。 print(content.strip())
获取到数据后,存储数据。【存储文件的三个步骤:打开文件,存储文件,关闭文件。】
''' Author: Gu Jiakai Date: 2021-07-11 14:45:27 LastEditTime: 2021-07-11 15:27:16 LastEditors: Gu Jiakai Description: FilePath: \第0关-初识爬虫\习题再练-文章下载.py ''' import requests#引入requests库。 #文章链接。 url1='https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md' # requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求, # 括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。 # 把响应返回的结果赋值给变量res。 res=requests.get(url1) #打印状态码,检查请求是否成功。 print(res.status_code) # 把response对象转换为字符串数据。 content=res.text # Python strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。 print(content.strip()) # with open('文件地址','读写模式','编码方式') as 变量名: with open('http状态响应码','a+',encoding='utf-8') as file: file.write(content) #无需用close()函数关闭文件。
注:
网页的编码方式为‘utf-8’,因此我们写入特定编码的文本文件要给open()函数传入encoding参数,将字符串自动转换为指定编码方式编码。
Python strip()方法
Python3中打开文件的方式(With open)