如果排除对业务的认知(可能根本没有过),忘记所谓的心智模型,单纯从数据中总结结论,该怎么做?
数据分析过程中有些不变的方法,可以让任何人显得像个分析师。
一、从度量入手
度量,有人叫指标,KPI,连续型变量等等,这不重要。只需要知道它是我们要统计的数即可。
只有一个变量时或一个变量一个变量观察时
不废话,先排序
看看有没有极大值,极小值
绝对值看着乱,用相对值。例如,局部占整体比例(去掉小数点,数据干净立整)
感觉分布不均时,计算平均数、中位数、众数、标准差(有点卷)
也可以利用直方图,把度量按某组距分组。度量转成维度,再用此维度统计本度量
得到,数据思维课中提到把数据分为4种(向上兼容,信息递减) 类别数据 - 性别 次序数据 - 排名 间隔数据 - 古代时辰 比例数据 - 销量 |
套用此分法,度量转维度就是将比例数据转化为间隔数据
两个变量一起观察时
不废话,先对其中一个变量进行排序
看看另一个变量是否一同增长或下降(寻找相关性),这里可以借助散点图
没有相关性?转换为间隔数据看看,这就是象限法!
两个以上变量一起观察时
除非你是水哥,常人就不要多个变量一起观察了。借助机器学习算法寻找潜在模型也可以,但不在这次讨论范围内。
二、从维度入手
维度,如果你用过SQL,那么Group By(团购)后边的字段就是维度;没用过也没关系,除了度量就是维度了。
时间维度
不废话,计算相对值,同环比
同环比就是找一个历史锚点对比当下时刻数据。历史锚点选择昨天,就是昨日环比;历史锚点选择去年今天,就是年同比。 按照这个逻辑,锚点也可以选择有意义的历史时刻。例如,疫情爆发前,或历史某重要节日(历史峰值)等 |
利用折线看趋势,计算回归线。异常波动数据清晰可见
非时间维度,只有一个维度时或一个维度一个维度观察时
如果知道事情发展的顺序,可以将维度中的信息排序,这就是漏斗模型
利用基础认知对维度中的信息归类。例如产品维度中有桌子、椅子、铅笔、橡皮。按照材质归类为木质的、非木质的(背后可能是原材料供给的考量);或大件、小件(背后可能是运输成本的考量)等
结合度量对维度中信息分组。例如销量Top3为畅销品,其余为非畅销品;销量Top20%为头部产品,这就是二八定律。注意,这里的分组规则是根据度量选择的(动态),不同于2中从维度属性归类(静态)。
非时间维度,当有多个维度时
维度之间有关系(地理,组织架构等),可以建立层级。同级别间比较,相对值可以用占比。
维度间没关系,用笛卡尔积,将多种信息叠加起来,放大某组合的信号强度。例如运输方式(海运、空运),货物体积(大、小),组合后统计得出小件空运和大件海运ROI(时间成本+金钱成本)最高。(常识而已,这里只是举个栗子)
数据分析就是从数据中总结结论 这个结论在业务专家眼中甚至在常人眼中或许是朴素的,反常识的,或是惊艳的。在没有业务思路时,从纯纯的方法论出发,总比停滞不前要好,甚至好得多。