Python教程

python爬虫学习笔记

本文主要是介绍python爬虫学习笔记,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

1.导入所需要的包

十个页面电影,每个页面有25个电影,构造分页数字列表

 r:伪装身份,伪装成豆瓣链接可识别的浏览器

url:获取需要爬取的网站

 解析HTML得到数据

 

 

 

爬取自己想要的信息,导入excel文件中,存储地址可以根据自己的需要更改

导入excel结果如图

 

 

爬取东方财富数据

爬取网站神州高铁(000008)资金流向 _ 数据中心 _ 东方财富网

 

1.导入所需要的包,与爬豆瓣电影不同,这里将爬取数据存入MySQL中,这里最后两行包导入是为了不影响代码最终结果时消除无关紧要的警告

 

二.连接mysql建立数据库


游标功能执行这个SQL语句,提供存储数据的一个游标接口,通过游标获取数据
使用sql语句,这里要接收的参数都用%s占位符。注意:无论插入的数据是什么类型,占位符都用%s

 

三.获取网页

循环提取所以文本,并作最后的处理,关闭游标,链接,网站

 

这篇关于python爬虫学习笔记的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!