一、数据仓库架构设计
数据仓库的主要工作就是ETL(Extract-Transform-Load)
用来描述数据从来源经过装载、抽取、转换到目的端的过程
数据仓库架构设计,即为公司针对自身业务场景实现的水平分层、垂直分主题的数据仓库构建过程的顶层设计。
1、数据架构
架构原则:先水平分层,再垂直分主题域
数据架构分三层:
源数据落地区(SDF:Source Data File)
数据仓库层(DW:Data WareHouse)
数据集市层(DM:Data Market)
数据仓库层进一步细分位三层
源数据层(DWB)
细节数据层(DWD)
汇总数据层(DWS)
2、数据仓库分层(水平划分)
3、按主题划分(垂直划分)
二、数据仓库建模
1、概念定义
数据仓库模型是数据模型中针对特定的数据仓库应用系统的一种特定的数据模型
数据建模即数据模型的构建和应用过程
数据仓库建模即数据仓库模型的构建和应用过程
2、数据仓库建模的发展历史与历史意义
数据仓库建模的阶段发展
简单报表阶段
主要目标是解决一些日常的工作中业务人员需要的报表,和生成一下简单的可以帮助领导进行决策所需的汇总数据
大部分表现形式为数据库和前端报表工具
特点:简单、单一
数据集市阶段
根据某个业务部门的需要,进行一定的数据的采集,整理,按照业务人员的需要,进行多维报表的展现,能够提供对特定业务指导的数据,并且能够提供特定的领导决策数据。
特点:多维度、业务场景化、按需进行定制
数据仓库阶段
按照一定的数据模型,对整个企业的数据进行采集、整理,并且能够按照各个业务部门的需要,提供跨部门的、完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。
特点:全面、灵活、数据模型支撑、体系化
数据建模的意义:
进行全面的业务梳理,改进业务流程
对公司进行全面梳理
了解公司的业务运行加厚和运行状态
为改进公司架构、提升运营效率、指导生产提供科学支撑
建立全方位的数据视角,消灭信息孤岛和数据差异。
提供公司数据的全面视角,不再是部门各自为战。
清晰化部门间的内在联系,消灭部门之间的信息孤岛。
保证公司全局数据的一致性,消灭差异性。
解决业务的变动和数据仓库的灵活性。
将底层技术实现与业务表达展现解耦。
需求的变动或新需求,可以最小化的成本达到目标。
帮助数据仓库系统本身的建设。
技术开发人员和业务需求人员较容易达成一致意见。
各方人员明确当前数据状况,便于做当前任务评估和长远构建规划。
3、如何构建数据模型
数据模型的层次划分
各层次说明
业务建模,生成业务模型,主要解决业务层面的分解和程序化。
领域建模,生成领域模型,主要是对业务模型进行抽象处理,生成领域概念模型。
逻辑建模,生成逻辑模型,主要是将领域模型的概念实体以及实体之间的关系进行数据库层次的逻辑化。
物理建模,生成物理模型,主要解决,逻辑模型针对不同关系型数据库的物理化以及性能等一些具体的技术问题。
构建方法
数据模建构建与数据仓库架构设计有紧密关系,要优先吸收数据仓库架构设计即上一节内容。
数据仓库的建模方法有很多,每一种建模方法则代表哲学上的一个观点,代表了一种归纳,概括世界的一种方法。
目前的构建方法主要有三种:
范式建模法
维度建模法
实体建模法
范式建模法
范式建模其实是在构建数据模型常用的方法之一
主要解决关系型数据库的数据存储
特别说明
范式建模优点
从关系型数据库的角度出发,结合了业务系统的数据模型,能够比较方便的实现数据仓库的建模
范式建模缺点
其建模方法限定在关系型数据库之上,在有些时候(需要冗余的时候)反而限制了整个数据仓库模型的灵活性,性能等,特别是考虑到数据仓库的底层数据向数据集市的数据进行汇总时,需要灵活调整才能达到要求
当不需要冗余设计提高易用性和计算效率是,可以采用这种模式
维度建模法
按照事实表,维度表来构建数据仓库,最被人广泛知晓的是星型模型
重要概念说明
事实表:发生在某个时间点上的一个事件,即具体的实体内容
维度表:
维度表是从事实表抽出来的分析粒度
维度表可以看做是用户来分析数据的视角
星型建模法
定义:维度表全部直接关联到事实表中,形状类似于星星
雪花建模法
定义:维度表并非全部关联到事实表中,存在一个或多个表没有直接关联到事实表中,形状类似于雪花
关于星型和雪花模型进行维度建模的对比说明
定义:
星型建模:维度表全部直接关联到事实表中,其形状类似星星
雪花模型: 维度表没有全部关联到事实表中,存在一个或多个没有直接关联到事实表中,形状类似雪花。
相同点:
雪花模型属于星形模型的扩展,属于星形模型。
都是围绕事实表、维度表展开模型构建,只是层次设计不尽相同
差异点:
星型架构的设计由于没有像现实世界当中的抽象情况进行层级依赖,所以是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余设计。
雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,这些被分解的表都连接到主维度表而不是事实表。
对比总结说明
数据规范性:雪花胜于星型。
性能:雪花的表关联较多,并行性和计算性能上会低于性能上往往低于星型。
ETL开发:雪花关系多则关联多,代码量较复杂一些。而星型数据较集中,关联少,代码量会少一些。
实际使用,两者应用的均比较多,但星型略胜一筹。
维度建模优点:
可以有必要合理的冗余和其他范式建模的严格限制,相对于针对3NF 的建模方法,星型模式在性能上占据明显的优势。
维度建模非常直观,紧紧围绕着业务模型,可以直观的反映出业务模型
中的业务问题。不需要经过特别的抽象处理,即可以完成维度建模。
维度建模缺点:
由于在构建星型模式之前需要进行大量的数据预处理,会带来大量的数据处理工作。
业务发生变化后,往往需要更新维度的预处理。
存储和处理过程中,数据冗余量较大
依靠维度建模的话,其维度必然会且维护成本增大,不能保证数据来源
的一致性和准确性,而且在数据仓库的底层,不是特别适用于维度建模的方法。
三、数据分析
1、概念定义
· 数据分析是指用适当的统计分析(当下也包含机器学习等数据挖掘)的方法
· 对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结
的过程。
· 这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采
取适当行动。
· 辅助决策的最重要方法之一。
2、专业术语
2、1 OLTP
on-line transaction processing。中文意思:联机事务处理
其是数据库的主要应用,主要是执行基本日常的事务处理,如数据库记录的增删查改
主要特点:
实时性要求高,操作完后立刻要能看到结果。
数据量不是很大,生产库上的数据量一般不会太大,而且会及时做相应的数据处理与转移。
交易一般是确定的,比如银行存取款的金额肯定是确定的,所以OLTP是对确定性的数据进行存取
高并发,并且要求满足ACID原则。比如两人同时操作一个银行卡账户,比如大型的购物网站秒杀活动时上万的QPS请求。
总结:
主要是指关系型数据库中的增删改查,也是我们最常用操作,是数据库的基础。
2、2 数据库事务ACID四大特性
原子性 要么全部完成,要么全不完成
一致性 事务始终保持系统处于一致的状态
隔离性 确保每一事务在系统中认为只有该事务在使用系统
持久性 事务完成后,该事务对数据库所作的更改会持久的保存在数据库中,并不会被回滚
2、3 OLAP
On-Line Analytical Processing,中文意思为: 联机分析处理
其是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态的报表系统。
主要特点:
实时性要求不是很高,比如最常见的应用就是天级更新数据,然后出对应的数据报表。
数据量大,因为OLAP支持的是动态查询,所以用户也需要通过将很多数据的统计后才能得到想要知道的信息,例如时间序列分析等等,所以处理的数据量很大;
OLAP系统的重点是通过数据提供决策支持,所以查询一般都是动态,自定义的。所以在OLAP中,维度的概念特别重要。一般会将用户所有关心的维度数据,存入对应数据平台。
总结:
其是数据仓库的核心部件。
所谓数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理
商业智能(BI)、决策支持等重要的决策信息。
数据仓库是在数据库应用到一定程序之后而对历史数据的加工与分析,读取较多,更
新较少。
OLTP发展到一定阶段后产生的OLAP。
3、hive对数据分析的支持
Hive数据分析函数:分析函数、窗口函数、增强Group(用的极少,不做讲解)三类,及用于辅助表达的over从句。
3.1 产生背景
常规SQL语句中,明细数据和聚合后的数据不能同时出现在一个表中,但是此类需求又十分的常见。。该类函数即为解决两者可以同时出现的问题。
3.2 函数分类
分析函数(不支持与windows子句联用,即rows between)
NTILE:序列分析函数,用于数据分片排序,对数据分片并返回当前分片值。,不均匀的时候,依次增加前边分片序列的数量。
ROW_NUMBER: 序列分析函数,用于排序,按照顺序,不关心是否有相等情况
RANK: 序列分析函数,用于排序,按照顺序,关心相等情况,如遇相等情况,名次会留下空位。1、2、3、3、5
DENSE_RANK: 序列分析函数,用于排序,关心相等情况,遇相等情况,名次不会留下空位。1 2 3 3 4 5 5 6
窗口函数
LAG: 函数LAG(col,n,DEFAULT)用于统计窗口内往上第n行值。
第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)
LEAD:
与LAG作用相反,函数形式如LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值。第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL)
FIRST_VALUE:取分组内排序后,截止到当前行,第一个值
LAST_VALUE:与FIRST_VALUE相反,取分组内排序后,截止到当前行,最后一个值
over从句:指定分析窗口函数的细化落位规则
与标准的聚合函数COUNT、SUM、MIN、MAX、AVG联用,如sum(...) over(...)
与区配的分析窗口联用,如ROW_NUMBER() over(...)
使用PARTITION BY语句,使用一个或者多个原始数据类型的列
使用PARTITION BY与ORDER BY语句,使用一个或者多个数据类型的分区或者排序列
使用窗口规范,窗口规范支持以下格式:
ROWS BETWEEN:即为window子句或称窗口子句,属于物理截取,即物理窗口,从行数上控制截取数据的大小多少。
RANGE BETWEEN: 即为window子句或称窗口子句,属于逻辑截取,即逻辑窗口,从列值上控制窗口的大小多少。
PRECEDING:window子句之往前
FOLLOWING:window子句之往后
CURRENT ROW:window子句之当前行
UNBOUNDED:window子句之起点,UNBOUNDED PRECEDING 表示从前面的起点,UNBOUNDED FOLLOWING:表示到后面的终点。
注意:order by子句后边如果没有跟着多大窗口,则默认为range between unbounded preceding and current row