pandas是什么
数据结构
基础操作
运算
画图
数据处理工具
pannel + data + analysis
面板 计量经济学 三维数据
边界数据处理能力
读取文件方便
封装matplotlib 和 numpy 方便计算
dataframe
panel
series
既有行索引,又有列索引的二维数组
import pandas as pd import numpy as np data = np.random.normal(0,1,(10,5)) data2 = pd.DataFrame(data) data2
data = np.random.normal(0,1,(10,5)) data = pd.DataFrame(data) # 添加行索引 row_names = ['股票{}'.format(i) for i in range(10)] # 添加列索引 date = pd.date_range(start='20180101',periods=5,freq='B') pd.DataFrame(data,index = row_names,columns = date)
属性:
shape
index
columns
vales
T
索引的设置
设置新索引
行列索引只能集体修改,不能单独修改某个行/列的索引值
重置索引
data.reset_index()
data.reset_index(drop = True)
设置多个索引
multilndex 和pannel
删除缺失值
替换/插补
判断是否存NaN
pd.isnull(df) pd.notnull(df)
删除缺失值
默认按行去删除
df.dropna()
df.dropna(axis = 'row')
inplace参数 True就地删除,False不修改原值
df.drop(inplace=Flase)
默认false
替补插补
df.fillna(value, inplace = Flase)