目录
一、 实验目的
二、 实验环境
三、 实验准备
数据来源
接口数据分析
requests模块安装
四、 实验设计
五、 实验结果
了解并掌握网络爬虫的基本原理,并动手实现动态获取全国新型冠状病毒疫情现状。
windows 10
Pycharm 2020.1
python 3.7
打开浏览器访问腾讯新闻疫情大数据展示页面https://news.qq.com/zt2020/page/feiyan.htm#/global
打开chrome开发者工具,可以看到该页面打印了疫情数据
通过进一步查看network请求可知,实际数据接口为
https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5
首先将上文中的接口页面另存为(Ctrl+S)
getOnsInfo.json文件,使用编辑器notepad++打开,通过查找替换功能将文件中多余的’\’号去除,并删除
data:”{}” 字段中花括号两边的引号。 接着使用插件JSON
Viewer(自行安装)格式化该文件,最后可得到如下图所示的可读文件:
可以很清楚的看到,该json数据以树形的方式展示了国家-身份-城市各个范围内的疫情数据,而我们需要的数据则位于
total和today字段下
在today中展示了按天范围内的疫情数据, total中则包含了疫情出现以来的总数据。
使用python实现爬虫程序之前,需要安装必要的模块
如果安装了Anaconda,requests就已经可用了。否则,需要在命令行下通过pip安装:
python -m pip install requests
import csv import json import requests todayKey = 'today' totalKey = 'total' confirmKey = 'confirm' nowConfirmKey = 'nowConfirm' nameKey = 'name' childrenKey = 'children' ExcelName = '疫情日报.csv' # 数据保存文件 # 腾讯实时疫情接口api接口 api = 'https://view.inews.qq.com/g2/getOnsInfo?name=disease_h5' # 运行后会在同目录下生成一个 疫情日报.csv文件 if __name__ == '__main__': datas = json.loads(requests.get(url=api).json()['data']) with open(ExcelName, 'w', encoding='utf-8', newline='') as csvfile: writer = csv.writer(csvfile) dataLog = '更新时间:' + datas['lastUpdateTime'] writer.writerow([dataLog]) for contry in datas['areaTree']: if contry[nameKey] == '中国': for province in contry[childrenKey]: provinceName = str(province[nameKey]) newConfirm = str(province[todayKey][confirmKey]) nowConfirm = str(province[totalKey][nowConfirmKey]) writer.writerow([str('\t' + provinceName + ' 新增确诊: ' + newConfirm + ', 现有确诊:' + nowConfirm)]) for city in province[childrenKey]: newConfirm = str(city[todayKey][confirmKey]) nowConfirm = str(city[totalKey][nowConfirmKey]) cityName = city[nameKey] writer.writerow([str('\t\t' + cityName + ' \t\t新增确诊:' + newConfirm + ',\t现有确诊:' + nowConfirm)])
程序运行后,会将获取到的疫情数据保存在同级目录下的疫情日报.csv文件中,使用记事本打开:(部分内容)