基本统计分析,又叫描述性统计分析,它是指运用制表、分类、图形及概括性数据来描述数据特征的各项活动,以发现其内在规律的统计分析方法。
描述性统计分析主要包括数据的集中趋势分析、数据的离散程度分析、数据的频数分布分析等,常用的统计指标有计数、求和、平均值、方差、标准差等。
在R语言中,使用summary函数进行描述性统计分析,该函数的常用参数:
summary(object, digits) | |
参数 | 说明 |
object | 被统计的对象,可以是向量或数据框 |
digits | 结果保留的有效数字,默认为3(当结果的整数部分多于该参数时,则返回整数部分) |
#第五章 数据分析 #5.2 基本统计分析 data = read.csv('C:/Users/ABC/Desktop/书籍源代码和配套资源/谁说菜鸟不会数据分析(R语言篇)--数据/第五章/5.2 基本统计分析/描述性统计分析.csv', fileEncoding="utf8", stringsAsFactors=FALSE)
导入如上数据,一份某商品区域销售数据,第一列id,第二列area(区域),第三列sales(销量) 。
然后对sales列进行描述统计性分析,在sales列中,调用summary函数,即得到sales列的描述性统计分析结果。
#描述性统计分析 summary(object = data['sales'], digits = 7)
结果输出:
从结果中可以看出,该销售数据样本的平均值为1268.083,最小值为1190.000,第一四分位值为1242.500,中位数为1258.000,第三四分分位数1293.500,最大值为1380.000
如果只需要获取某个特定的统计指标,也可以直接调用对应的统计函数进行计算,常用的统计函数实例代码如下:
#计数 length(data$sales) #12 #最大值 max(data$sales) #1380 #最小值 min(data$sales) #1190 #求和 sum(data$sales) #15217 #平均值 mean(data$sales) #1268.083 #方差 var(data$sales) #2551.356 #标准差 sd(data$sales) #50.51095