Java教程

SQL数据分析-第一章-理解和描述数据

本文主要是介绍SQL数据分析-第一章-理解和描述数据,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

一、数据世界

(一)数据类型

数据分为两大类:定量数据和定性数据。

定性数据:用非数值来描述的数据,如文本。

定量数据:分为离散数据和连续数据,是一种可以用数字来描述的测量结果。

(二)数据分析和统计

1.统计类型

统计过程可以分为描述统计和推论统计。

描述统计用于描述数据。数据集中单一变量上的描述统计称作单变量分析;同时考察两个或多个变量的描述统计则称作多变量分析。

推论统计根据样本属性尝试推断出总体属性。

Tips 1:拿到一个新的数据集,首先考虑以下步骤:

a)确定观察的数据的单位。

b)确定每一列是定量数据还是定性数据。

c)将定性数据转化为定量数据。

(三)描述统计的方法

一)单变量分析

1.数据频率分布

数据的分布是数据集中数值数量的一个计数。

根据数据集中实际出现的次数描述计数结果是绝对频率分布

根据占数据点总数的比例来描述计数结果是相对频率分布

(1)直方图是处理分布的一种很重要的方法。

(2)量化数据分布的一种方法是分位数。N-分位数表示n-1个点的集合,用于将数据分为n组。这些点通常称为切割点。

2.集中趋势

常见的集中趋势测量方法如下:

(1)模式:变量分布中最为常见的数值。如果有多个,则该变量称为多模式的。如果不存在重复的变量,那么该数值集合不存在模式。

(2)均值:通常可较好的描述变量的“典型”值。其主要缺点是:其对异常值很敏感。包含异常值的数据集称为倾斜数据集。

(3)中位数:中位数可以避免对异常值的敏感。

一种较好的原则是:同时计算中位数和均值。如果二者有很大差距,则数据集中存在异常值。

3.离散度

(1)极差:易于计算但很容易受到异常值的影响。并未提供与数据集中间值分布相关信息。

(2)标准差/方差:也会受到异常值影响,但没有极差那么明显。

(3)四分位距IQR:定义为第一个四分位数Q1(下四分位数)与第三个四分位数Q3(上四分位数)之间的差值。它能很好地处理异常值数据。同时,它可以定义异常值:在[Q1-1.5*IQR,Q3+1.5*IQR]区间之外的值即为异常值。

二)双变量分析

1.散点图

当仅有少量数据时(30-500),散点图十分有用。如果数据量过大,可在其中随机抽取200个数据样本。

散点图所呈现的两个变量的关系及应用如下:

1)趋势性:线性、二次型、指数型、逆转型、逻辑型……

同时,检测趋势中的变化行为也同样有用:例如,某种线性趋势在x>40后就消失了。

2)周期性:数据中的重复模式,这在预测过程中十分有用。

3)检测异常值:当检测出异常值后,可以选择移除这些异常值。

2.皮尔森相关系数

表示散点图与线性趋势的拟合程度。

解释皮尔森相关系数时需要注意:

1)其仅衡量二者与线性趋势的拟合程度,还应留意两个变量间的非线性关系。

2)数据点越少,相关系数可能越高,但应有保留的看待结果。理想状态下,应尽可能多的持有优良数据点(排除异常值)。

3)仅仅因为二者有很强的相关性不能推出因果关系。其他可能的情况如因果倒置、两个变量关联性之间还存在第三个变量等。故分析时应避免相关性和因果关系陷阱,深入思考对结果产生影响的其他因素。

3.时序数据

事务如何随时间而变化。

Tips2:处理缺失数据:

(1)删除行:如果较少的数据行存在缺失数据(少于5%),直接删除有缺失数据的行。

(2)均值/中位数/模式填补:如有5%-25%数据缺失可使用此类方法。

(3)回归填充法:尝试构建和使用某种模型填充缺失数据。

(4)删除变量:如果某个变量缺失了大部分数据且未持有有效数据,可直接将其删除。

这篇关于SQL数据分析-第一章-理解和描述数据的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!