Java教程

数据预览与预处理

本文主要是介绍数据预览与预处理,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

一、加载数据

点击查看代码
import pandas as pd
df = pd.read_excel("TOP250.xlsx")

二、数据的查看

2.1查看数据有多少行,多少列:

df.shape

2.2 查看几行数据

点击查看代码
df.sample(5) # 随机查看数据
df.head()  # 查看数据的前5行
df.tail() # 查看数据的后5行

2.3 查看数据基本信息

df.info()

2.4 查看数值型、列的统计信息、计数、均值之类

df.describe()
df.describe().round(2) # 保留两位小数

2.5 查看数据统计信息|离散

df.describe(include=['O'])

2.6 - 查看数据统计信息|整体

查看 全部 列的统计信息
df.describe(include='all')

三、缺失值处理

3.1计算缺失值|总计

df.isna().sum() # 统计每列有多少缺失值;
df.isna().sum().sum() # 统计总共有多少个缺失值(每列之和)

3.2 查看缺失值

点击查看代码
df[df.isnull().T.any() == True] # 查看所有数据的缺失值
df[df['评价人数'].isnull()] # 查看某一列数据的缺失值

3.3 将缺失值进行高亮标出

点击查看代码
df[df.isnull().T.any() == True].style.highlight_null(null_color='skyblue')

3.4 删除缺失值

点击查看代码
df.dropna() # 删除所有的缺失值

3.5 缺失值补全|整体填充

将缺失值用特定字符去替换

点击查看代码
df.fillna("*")

3.6 缺失值补全|向上填充

点击查看代码
df['评分']=df['评分'].fillna(axis=0,method='ffill')
df

3.7 缺失值补全|整体均值填充

点击查看代码
df['评价人数']=df['评价人数'].fillna(df['评价人数'].mean())
df

3.8 缺失值补全|上下均值填充

点击查看代码
df['评价人数'] = df['评价人数'].fillna(df['评价人数'].interpolate())
df

3.9 缺失值补全|匹配填充

点击查看代码
df['语言']=df.groupby('国家/地区').语言.bfill()
df

四、重复值处理

4.1 查找重复值

点击查看代码
df[df.duplicated()] # 查找所有的重复值
df[df.duplicated(['片名'])] # 查找某一列的重复值

4.2 删除重复值

点击查看代码
df.drop_duplicates() # 删除所有的重复值
df = df.drop_duplicates(keep = 'last') # 删除全部的重复值,但保留最后一次出现的值
这篇关于数据预览与预处理的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!