Python教程

第四节:Python中用pandas, numpy等清洗数据

本文主要是介绍第四节:Python中用pandas, numpy等清洗数据,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

准备

import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt

1、 处理缺失数据

缺失值在很多数据分析应用中出现
pandas的目标之一就是尽可能“无痛”地处理缺失值
pandas对象的所有描述性统计信息默认情况下是排除缺失值的
pandas使用NaN(Not a Number)来表示缺失值

from numpy import nan as NA   #重命名NA为空值

在这里插入图片描述

(1)过滤缺失值

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

(2)补全缺失值

有时可能不想滤除缺失数据(有可能会丢弃跟它有关的其他数据),而是希望通过其他方式填补那些“空洞”。
对于大多数情况而言,fillna方法是最主要的函数。
通过一个常数调用fillna就会将缺失值替换为那个常数值:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

2、数据转换

(1)移除重复值

在这里插入图片描述在这里插入图片描述

(2) 使用函数或映射进行数据转换

对于许多数据集,可能希望根据数组、Series或DataFrame列中的值来实现转换工作。

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

(3)替代值

在这里插入图片描述在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

这篇关于第四节:Python中用pandas, numpy等清洗数据的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!