import pandas as pd df = pd.read_excel("TOP250.xlsx")
df.shape
df.sample(5) # 随机查看数据 df.head() # 查看数据的前5行 df.tail() # 查看数据的后5行
df.info()
df.describe()
df.describe().round(2) # 保留两位小数
df.describe(include=['O'])
查看 全部 列的统计信息
df.describe(include='all')
df.isna().sum() # 统计每列有多少缺失值;
df.isna().sum().sum() # 统计总共有多少个缺失值(每列之和)
df[df.isnull().T.any() == True] # 查看所有数据的缺失值 df[df['评价人数'].isnull()] # 查看某一列数据的缺失值
df[df.isnull().T.any() == True].style.highlight_null(null_color='skyblue')
df.dropna() # 删除所有的缺失值
将缺失值用特定字符去替换
df.fillna("*")
df['评分']=df['评分'].fillna(axis=0,method='ffill') df
df['评价人数']=df['评价人数'].fillna(df['评价人数'].mean()) df
df['评价人数'] = df['评价人数'].fillna(df['评价人数'].interpolate()) df
df['语言']=df.groupby('国家/地区').语言.bfill() df
df[df.duplicated()] # 查找所有的重复值 df[df.duplicated(['片名'])] # 查找某一列的重复值
df.drop_duplicates() # 删除所有的重复值 df = df.drop_duplicates(keep = 'last') # 删除全部的重复值,但保留最后一次出现的值