1.导入所需要的包
十个页面电影,每个页面有25个电影,构造分页数字列表
r:伪装身份,伪装成豆瓣链接可识别的浏览器
url:获取需要爬取的网站
解析HTML得到数据
爬取自己想要的信息,导入excel文件中,存储地址可以根据自己的需要更改
导入excel结果如图
爬取东方财富数据
爬取网站神州高铁(000008)资金流向 _ 数据中心 _ 东方财富网
1.导入所需要的包,与爬豆瓣电影不同,这里将爬取数据存入MySQL中,这里最后两行包导入是为了不影响代码最终结果时消除无关紧要的警告
二.连接mysql建立数据库
游标功能执行这个SQL语句,提供存储数据的一个游标接口,通过游标获取数据
使用sql语句,这里要接收的参数都用%s占位符。注意:无论插入的数据是什么类型,占位符都用%s
三.获取网页
循环提取所以文本,并作最后的处理,关闭游标,链接,网站