Java教程

数据清洗概述

本文主要是介绍数据清洗概述,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

一 数据清洗背景

企业信息化的要求越来越迫切,而作为决策支持的数据仓库的数据可能达不到要求,所以我们需要对数据仓库中的数据进行清洗,得出可靠数据,用以支持企业战略决策。

二 数据清洗相关定义

*数据清洗是提高数据质量的有效方法

*数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据。

注:数据清洗的目的是解决“脏”数据问题,而不是将“脏”数据洗掉,是洗”干净“。

1.数据质量

1.1   数据质量是指在业务环境下,数据符合消费者的使用目的,能满足业务场景具体需求的程度。

1.2   数据质量的评价指标:准确性,完整性,简洁性和适应性(核心准则)。

1.3  数据质量的问题分类

     1.3.1基于数据源的“脏”数据分类:单数据源问题和多数据源问题。

     1.3.2基于清洗方式的“脏”数据分类:独立型“脏”数据和依赖型“脏”数据

1.4 数据清洗的基本流程

     1.4.1 数据分析:数据清洗的前提和基础,通过人工检测或者计算机分析程序对原始数据进行检测分析,得出原始数据中存在的问题。

      1.4.2 定义数据清洗的规则和策略

      1.4.3 搜寻并确定错误实例

      1.4.4 纠正发现的错误:属性分离,确认并改正,标准化

      1.4.5 干净数据回流

1.5 数据清洗的策略

      

一般的数据清洗策略手工清洗,自动清洗 特定应用领域,与特定应用无关
混合的数据清洗策略以自动清洗为主

1.6

常见的数据清洗方法
缺失值的清洗忽略缺失值和填充缺失值数据
重复值的清洗相似度计算,基于基本近邻排序算法
错误值的清洗统计分析

*注:目前重复值清洗的基本思想是排序和合并

后记:本文为学习《数据清洗--黑马程序员编著》第一章学习笔记。

这篇关于数据清洗概述的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!