数据分为两大类:定量数据和定性数据。
定性数据:用非数值来描述的数据,如文本。
定量数据:分为离散数据和连续数据,是一种可以用数字来描述的测量结果。
1.统计类型
统计过程可以分为描述统计和推论统计。
描述统计用于描述数据。数据集中单一变量上的描述统计称作单变量分析;同时考察两个或多个变量的描述统计则称作多变量分析。
推论统计根据样本属性尝试推断出总体属性。
Tips 1:拿到一个新的数据集,首先考虑以下步骤:
a)确定观察的数据的单位。
b)确定每一列是定量数据还是定性数据。
c)将定性数据转化为定量数据。
一)单变量分析
1.数据频率分布
数据的分布是数据集中数值数量的一个计数。
根据数据集中实际出现的次数描述计数结果是绝对频率分布。
根据占数据点总数的比例来描述计数结果是相对频率分布。
(1)直方图是处理分布的一种很重要的方法。
(2)量化数据分布的一种方法是分位数。N-分位数表示n-1个点的集合,用于将数据分为n组。这些点通常称为切割点。
2.集中趋势
常见的集中趋势测量方法如下:
(1)模式:变量分布中最为常见的数值。如果有多个,则该变量称为多模式的。如果不存在重复的变量,那么该数值集合不存在模式。
(2)均值:通常可较好的描述变量的“典型”值。其主要缺点是:其对异常值很敏感。包含异常值的数据集称为倾斜数据集。
(3)中位数:中位数可以避免对异常值的敏感。
一种较好的原则是:同时计算中位数和均值。如果二者有很大差距,则数据集中存在异常值。
3.离散度
(1)极差:易于计算但很容易受到异常值的影响。并未提供与数据集中间值分布相关信息。
(2)标准差/方差:也会受到异常值影响,但没有极差那么明显。
(3)四分位距IQR:定义为第一个四分位数Q1(下四分位数)与第三个四分位数Q3(上四分位数)之间的差值。它能很好地处理异常值数据。同时,它可以定义异常值:在[Q1-1.5*IQR,Q3+1.5*IQR]区间之外的值即为异常值。
二)双变量分析
1.散点图
当仅有少量数据时(30-500),散点图十分有用。如果数据量过大,可在其中随机抽取200个数据样本。
散点图所呈现的两个变量的关系及应用如下:
1)趋势性:线性、二次型、指数型、逆转型、逻辑型……
同时,检测趋势中的变化行为也同样有用:例如,某种线性趋势在x>40后就消失了。
2)周期性:数据中的重复模式,这在预测过程中十分有用。
3)检测异常值:当检测出异常值后,可以选择移除这些异常值。
2.皮尔森相关系数
表示散点图与线性趋势的拟合程度。
解释皮尔森相关系数时需要注意:
1)其仅衡量二者与线性趋势的拟合程度,还应留意两个变量间的非线性关系。
2)数据点越少,相关系数可能越高,但应有保留的看待结果。理想状态下,应尽可能多的持有优良数据点(排除异常值)。
3)仅仅因为二者有很强的相关性不能推出因果关系。其他可能的情况如因果倒置、两个变量关联性之间还存在第三个变量等。故分析时应避免相关性和因果关系陷阱,深入思考对结果产生影响的其他因素。
3.时序数据
事务如何随时间而变化。
Tips2:处理缺失数据:
(1)删除行:如果较少的数据行存在缺失数据(少于5%),直接删除有缺失数据的行。
(2)均值/中位数/模式填补:如有5%-25%数据缺失可使用此类方法。
(3)回归填充法:尝试构建和使用某种模型填充缺失数据。
(4)删除变量:如果某个变量缺失了大部分数据且未持有有效数据,可直接将其删除。