今天我们就用爬虫携程旅游景点数据爬取与可视化并做简单的数据可视化分析呗。让我们愉快地开始吧~
bs4模块;
jieba模块;
pyecharts模块;
wordcloud模块;
requests模块;
以及一些Python自带的模块。
安装Python并添加到环境变量,pip安装需要的相关模块即可。
首先,我们来明确一下我们想要爬取的数据是哪些,这里为了方便起见,我们只爬取北京市的旅游景点数据,如下图所示:
即我们需要爬取的数据为北京市所有景点的名称,位置,评分等数据。明确了我们的爬取目标,就可以开始写代码啦~
代码实现起来其实也很简单,可以发现景点信息页的url变化规律如下:
'https://you.ctrip.com/sight/beijing1/s0-p页码.html#sightname'
那么我们只需要逐一请求所有相关网页,并借助bs4解析并提取我们需要的数据即可。同时,为了避免爬虫被封,我们每请求10次网页,就更换一个代理,代理来源则是网上爬取的免费代理。
具体而言,代码实现如下:
'''携程旅游景点爬虫'''
代码运行效果如下:
All done~完整源代码详见个人简介或者私信获取相关文件。
老规矩,写完爬虫可视化一波数据,方便起见,还是用刚刚爬取的北京景点数据吧~
首先,把所有景点的位置信息做成词云看看?
看看景点的评分分布呗:
再来统计一下景区评级分布呗:
其中,5A级景区有:
故宫
再来看看价格分布呗:
最后看看评论最多的8个景区是啥如何?
文章到这里就结束了,感谢你的观看,关注我每天分享Python爬虫实战系列,下篇文章分享爬取携程旅游景点数据爬取与可视化。
为了感谢读者们,我想把我最近收藏的一些编程干货分享给大家,回馈每一个读者,希望能帮到你们。
干货主要有:
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)
⑥ Python为期两天的爬虫训练营直播权限
All done~完整源代码+干货详见个人简介或者私信获取相关文件。。