07>>>数据清洗

本文主要是介绍07>>>数据清洗，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

07.数据清洗

数据清洗概念

　　之前已经讲过，数据分析的过程是这样的。

1.明确需求
2.数据采集
3.数据清洗
4.数据分析
5.数据报告+数据可视化

　　之前我们学习的一系列python模块，比如BeautifulSoup、Xpath、selenium等模块，都是属于数据清洗的范畴；matplotlib模块属于数据可视化模块。numpy和pandas模块我们侧重于学习了理论部分，接下来我们就要学习如何在实际工作中使用它们了。

　　干巴巴的理论不太好理解，我们还是打个比方来帮助记忆，如果把数据分析比作做菜：

数据分析过程    →    做菜过程
明确需求            明确做什么菜品
数据采集            去市场买菜
数据清洗            洗菜切菜配菜
数据分析            下锅炒菜
数据报告+数据可视化   拍照发朋友圈+吃菜

什么是数据清洗？

　　数据清洗的定义：从记录表、表格、数据库中检测、纠正或删除损坏或不准确记录的过程。

　　换个俏皮的说法，数据清洗就是把脏数据变为干净的数据的过程。

　　脏数据：没有经过处理的自身含有一定问题的数据（残缺数据、错误数据、重复数据、不符合规则的数据）。

　　干净数据：经过处理的完全符合规范要求的数据（可以直接带入模型）。

数据清洗的常用方法

1.读取外部数据

pd.read_csv
pd.read_excel
pd.read_sql
pd.read_html

2.数据概览

index
columns
head
tail
shape
describe
info
dtype

　　除了info比较眼生，这些内容都是之前在pandas模块的DataFrame数据类型中就学习过的参数。

3.简单处理

移除首尾空格
大小写转换

4.重复值处理

duplicated()  # 查看是否含有重复数据
drop_duplicats()  # 删除重复数据

MySQL中的操作

　　我们来回忆一下，MySQL中如何快速判断某列是否含有重复的数据？

create database db1;
create table t1(id int,name varchar(32),pwd int);
insert into t1 values(1,'joe',123),(2,'simon',321),(3,'frank',222),(4,'jerry',111),(5,'eddie',222),(6,'eddie',333);

思路：

select count(name) from t1;  # 统计表t1中name字段的数据量

　　如果只单纯给name字段计数的话，它只会给出name字段所有数据的数量。

　　所以我们首先要进行去重操作，然后统计字段去重后的数据。将得到的计数和原先未去重的计数相一比较，立马就能知道有没有重复的数据了。

select count(distinct(name)) from t1;  # 将name字段的数据去重之后再计数

　　若两者数字相同，表示name列没有重复的数据，不同则表示含有重复的数据。

5.缺失数值处理

删除缺失值
填充缺失值
    均值填充法
    向前填充/向后填充（原理，视频03）
    模型填补法，如随机森林
    ……

　　向前填充即是指缺失值选用前面一个值进行填充，向后填充即是指缺失值选用后面一个值进行填充。

　　模型填补法这里暂且不展开讲，混个眼熟即可。

6.异常值处理

删除异常值
作为缺失值处理
修正异常值（同样是当做缺失值处理）
    平均值修正、盖帽法修正

7.文本字符串处理

切割
筛选
……

8.时间格式处理

Y  # 年
m  # 月
d  # 日
H  # 时
M  # 分
S  # 秒

　　其中许多内容都是曾经学习过的知识点，具体用法可以参考过去的博客。

　　在整套数据清洗流程中，第3~第8步没有固定的顺序，可以根据需要随意调整操作顺序。前期不熟练时可以按序号来。

数据清洗实战案例

　　接下来我们就通过一个实际案例来看看数据清洗应该怎么做，同时这也是对之前学的个方面内容的一个全面回顾。

旅游数据的清洗

　　首先启动anaconda，等到载入完后运行jupyter notebook。新建文件夹并且重命名便于辨识。放入数据资料，新建python3文件。准备工作都完成后我们可以进行编程了。

　　首先还是雷打不动地载入需要用到的模块。

# 导入三剑客
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

1.读取数据

data = pd.read_csv(r'qunar_freetrip.csv')

2.数据概览

data.index  # 查看行数
data.columns  # 查看列字段
data.shape  # 查看行数和列数
data.head()  # 查看头几行数据
data.tail()  # 查看尾几行数据
data.dtypes  # 查看字段类型
data.describe()  # 简单的数据统计
data.describe(include='all')  # include参数可以指定计算的类型，all表示不论数据类型所有字段都进行数据统计（一般不加）
data.info()  # 既可以查看每个列的数据类型，还可以查看缺失数据量

　　data.info是个挺有意思的语句，不光列出了字段的名称，还列出了每个字段的总数、缺失数据数量、字段数据类型。

3.简单处理

1.将Unnamed: 0列删除

data.drop(columns=['Unnamed: 0'],inplace=True)  # 既可以删列数据也可以删行数据

2.列字段处理

data['列字段']  # 获取指定列字段的数据
eg:
data['目的地']  # 报错

　　报错？但是语句没问题啊。

　　其实这里是有个小陷阱，如果观察不仔细很容易忽略。

data.columns  # 查看列字段

　　有些列字段中带有空格，所以单写中文没法获取到数据。

　　所以应该先移除列字段空格。

new_columns = []  # 定义一个空列表
for col in data.columns:  # 循环获取列字段名
    new_columns.append(col.strip())  # 将去除空格后的列字段名加入到空列表中
data.columns = new_columns  # 修改原列字段

　　这里还可以做优化，用列表生成的方式就能用一行代码解决。

data.columns = [col.strip() for col in data.columns]
data.columns = new_columns

　　无论用哪种方式，改完后都可以正常索引获取数据了。

data['目的地']  # 可以正常获取

4.重复值处理

　　首先，查看是否含有重复数据。

data.duplicated().sum()  # 查看重复数据的数量
data[data.duplicated()]  # 查看重复数据

　　其中有100条重复数据。

# 直接删除重复数据
data.drop_duplicates(inplace=True)
# 验证是否成功
data.duplicated().sum()  # 0
data.shape  # (5000, 13)
# 删除重复数据后将引发行标签问题（行标签并不会重新排序）
data.tail()

　　针对行标签是否需要重新排序，取决于业务需要，一般情况下可以不重排。

data.reset_index(inplace=True)  # 重置行标签，重置后会默认保留原来的行标签
data.drop(columns=['index'],inplace=True)  # 删除原来的行标签

　　重置行标签另有一种更简便的方法（支持自定义起始数字，推荐）

data.index = range(0,df.shape[0])

5.异常值处理

1.利用快速统计大致筛选出可能有异常值的列字段

data.describe()

　　节省这一列看起来很不正常，统计下来的总和居然比价格还要多出几块钱来。

　　可以利用公式求证我们的猜想。

公式计算：(列数据-列数据均值)/列数据标准差，如果值大于3就是有异常的。
sd = (((data['价格'] - data['价格'].mean()) / data['价格'].std())>3).sum()  # 有可能是负数

　　得到的结果可能是负数，所以这里需要用到绝对值。

sd_abs = abs(((data['价格'] - data['价格'].mean()) / data['价格'].std())>3).sum()
data[sd_abs]

2.同理验证节省是否有异常

sd2_abs = abs(((data['节省'] - data['节省'].mean()) / data['节省'].std())>3).sum()  # 按照公式计算确实存在异常，但可能是由于促销、引流等因素导致的，针对这类数据可以保留

3.验证节省大于价格的

data[data['节省'] > data['价格']]

4.删除价格和节省都有异常的数据

pd.concat(data[])  # 合并表
data.drop(index=del_index,inplace=True)  # 操作完后行标签又变了，需要的话还是要调整

6.缺失数据处理

# 查看缺失数据的方式
data.isnull().sum()  # 求每个列字段中缺失数据的数量
data.info()  # 也可以验证

1.修改出发地缺失数据

res = data[data['出发地'].isnull()]  # 筛选出出发地为缺失值的数据

　　缺失数据项有时可能存在于其他列数据中。

　　接下来就是取值了。

res['路线名'].values  # 从路线名字段中取值

　　针对本案例有多种获取城市名的方式。

# 1.字符串切片（适用性太窄，局限性太大，不推荐）
d1[0:2]
# 2.字符串切割（可以）
d1.split('-')[0]
# 3.正则表达式
import re
re.findall('(.*?)-',d2)
# 可用列表表达式来完成
data.loc[data.出发地.isnull(),'出发地'] = [i.split('-')[0] for i in data.loc[data.出发地.isnull(),'路线名'].values]
# 验证是否还有缺失数据
data[data['出发地'].isnull()]

2.修改目的地缺失数据

# 筛选出目的地为缺失值的数据
res = data[data['目的地'].isnull()]
res
# 从路线名字段中取值
data.loc[data.目的地.isnull(),'路线名'].values
d3 = '深圳-大连3天2晚 | 入住大连黄金山大酒店 + 南方航空/东海往返机票'
# 正则筛选出需要的数据
re.findall('-(.*?)\d',d3)
# 三元表达式整合
data.loc[data.目的地.isnull(),'目的地'] = [re.findalll('-(.*?)\d',i) for i in data.loc[data.目的地.isnull(),'路线名'].values]
# 验证是否还有缺失数据
data[data['目的地'].isnull()]

3.修改价格缺失数据

round(data['价格'].mean(),1)  #求价格均值，保留一位小数
data['价格'].fillna(round(data['价格'].mean(),1),inplace=True)  # 用价格平均值填充入缺失数据
data[data['价格'].isnull()]  # 验证是否还有缺失数据

4.修改节省缺失数据

round(data['节省'].mean(),1)  #求节省均值，保留一位小数
data['节省'].fillna(round(data['节省'].mean(),1),inplace=True)  # 用节省平均值填充入缺失数据
data[data['节省'].isnull()]  # 验证是否还有缺失数据

　　如此一来，例题的数据清洗步骤就完成了。

这篇关于07>>>数据清洗的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程

07>>>数据清洗

07.数据清洗

数据清洗概念

什么是数据清洗？

数据清洗的常用方法

1.读取外部数据

2.数据概览

3.简单处理

4.重复值处理

MySQL中的操作

5.缺失数值处理

6.异常值处理

7.文本字符串处理

8.时间格式处理

数据清洗实战案例

旅游数据的清洗

1.读取数据

2.数据概览

3.简单处理

4.重复值处理

5.异常值处理

6.缺失数据处理

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯