课程名称:人人都能学会数据分析
课程章节:python实现网络爬虫
课程内容:Python实现网络爬虫
课程收获:
爬虫是利用技术手段实现网页信息的抓取;(为什么)使用爬虫可以让获取以及处理信息的效率倍增;
实现爬虫的步骤:
① 定位目标地址;
② 访问网页并获取网页信息,使用request库;
③ 解析网页结构并提取目标信息,使用BeautifulSoup库。
Python的Request库,能更快捷地实现抓取网页信息(它上面有什么,我就抓取什么)
提取目标信息,涉及网页结构,具体会使用python的BeautifulSoup库