课程名称:人人都能学会数据分析
课程章节:更高效的数据处理与可视化绘图
课程内容:清理数据重复值、缺失值、拆分
课程收获:
#全部显示行列数据: pd.set_option()
显示所有列:pd.set_option('display.max_rows',None)
显示所有行:pd.set_option('display.max_columns' , None)
设置数据的显示长度,默认为50:pd.set_option('max_colwidth', 50)
#读取数据
pd.read
提取需要的数据:usecols=【】
eg: data=pd.read_csv('movie_data.csv,usecols=['average','genre','language','release-date','title','votes'])
# 查重 去重
查重 :duplicate. 去重 drop_duplicate
eg : dupl_df=data.duplicate('title'), dupl_data=data.drop_duplicate('title)
验证去重是否成功,可用检查字符数的方法
print(len(dupl_df),' ', len(dupl_data))
#缺失值 np.nan
判断pd. isna(), 返回布尔值 true为缺失
填充缺失值 fillna(value=)
EX: 用均值填充:
dupl_data['average'].fillna(value=dupl_data['average'].mean())
#分列 str.split(',' , expand=True)
EX: dupl_data['release date'].str.split('(',expand=Ture))