pandas 是一套用于 Python 的快速、高效的数据分析工具。它提供了数组的操作,定义了处理数据的基本结构,并且赋予了它们促进操作的方法,例如:读取数据、调整索引、使用日期和时间序列、排序、分组、一般数据调整、处理缺失值等等。
总之,学好pandas,数据分析也就不用怕了。
从本篇开始,J哥将系统总结pandas所有常用和实用知识点,所有code都是手码。至于要写多少篇,以最终code量来决定。学习本系列前建议下载安装Jupyter Notebook。
一、数据包
二、Series
由 pandas 定义的两种数据类型是 Series 和 DataFrame,Series 类似一个 column,DataFrame 是多个 Series 的集合。
1.定义一个Series
注:np.random.randn()函数随机返回一个或一组样本,具有标准正态分布
2.Series乘以10
3.Series取绝对值
注:abs() 函数返回数字的绝对值
4.对Series做描述性统计
5.对Series自定义索引的值
6.对Series做查询(类似字典)
6.将索引为Python的值改为2
7.判断索引J是否存在
三、DataFrame
1.读入数据
2.获取前5行
3.获取第3-4行
4.获取特定的列
5.使用整数选择行和列
注:通过iloc属性实现********
6.使用整数和标签的混合来选择行和列
注:通过loc属性实现********
7.获取这三列
8.重置索引为province
9.更改列名
10.对数据进行计算
注:1e4表示10000
11.matplotlib作图
(1)解决中文乱码问题
(2)以2019年各省GDP总额做柱状图
(3) 根据increase字段降序
**
**
(4)以2019年较2010年GDP增幅做柱状图