时间序列是一种衡量事物随时间变化的数据类型。在一个时间序列数据集中,时间列本身不代表一个变量:它实际上是一个基本结构,可以使用它对数据集排序。由于我们需要应用特定的数据预处理和特征工程技术来处理时间序列数据,因此这种基本的时间结构使时间序列问题更具有挑战性。
时间序列预测就是利用过去一段时间的数据来预测未来一段时间内的信息,包括连续型预测(数值预测,范围估计)与离散型预测(事件预测)等。
时间序列分析是要确定时间序列数据的内在结构并推断其隐藏特征,以便从中获得有用的信息。
利用时序分析的原因:
它通常被认为是为时序预测分析和准备时序数据的第一步。
时序分析的四个重要组成部分:长期运动或趋势、季节性短期运动、周期性短期运动、随机或不规则波动
通常将前三个组成的部分作为时间序列数据的信号,因为它们实际上是可以从数据本身派生出来的确定性指标。而随机或不规则波动是数据不能真正预测的值的任意变化,因为这些随机波动的数据点都独立于上面的其他信息,如长期和短期运动。因此,通常称其为噪声,因为它是由难以观测的潜在变量触发的。
我们需要仔细确定时间序列数据中的每个组成部分,才能构建一个精确的机器学习预测解决方案。为了识别和度量这四个组成部分,建议首先执行一个分解过程,从数据中去除组成部分的影响。在识别和度量了这些组成部分并用它们构建其他功能以提高预测准确率后,我们可以利用不同的方法在预测结果中重组和添加各组成部分。
理解这四个时间序列组成部分以及如何识别和删除它们是构建任何时间序列预测解决方案的第一步,因为它们可以帮助解决时间序列中的另一个重要概念——平稳性。
平稳性:时间序列的统计参数不会随时间变化,也就是说,时间序列数据分布的基本属性(如均值和方差),不随时间变化。这样更容易建模,因为其基本假设是,它们的属性不依赖于时间,未来将与它们在历史时期一样的。许多时间序列的统计学模型都是依赖于时间序列是平稳的这一前提条件。对于非平稳的时间序列,可以通过差分、log 变换或平方根变换转化为平稳序列。
另外,显示数据值变化(如趋势或季节性)的事件序列显然不是平稳的,因此更难以预测和建模。为了得到准确一致的预测结果,需要将非平稳数据转换为平稳数据。试图使时间序列平稳的另一个重要原因是能够获得有意义的样本统计信息,例如均值、方差以及其他变量的相关性,这些统计信息可以用来获得更多的见解其更好地了解数据,并作为时间序列数据集中的附加特征。
时间序列预测涉及在观测值之间存在有序关系的情况下针对数据开发和使用预测模型。在开始构建预测解决方案之前,强烈建议定义一下方面。
预测模型的输入和输出
预测模型的粒度级别:每个时间戳捕获值的最低详细级别,粒度与收集时间序列值的频率有关。
预测模型的范围:未来预测所需要的时间长度。
预测模型的内源性和外源性特征:影响预测的内部和外部因素
内源性特征是输入变量,其值由系统中的其他变量决定,而输出变量取决于它们。
外源性特征作为输入变量不受系统中其他变量的影响,输出变量依赖于输入变量,具有一下一些共同的特征。
在进入模型时时固定的
在模型中被认为是给定的
影响模型中的内源性变量
不能由模型决定
不能用模型来解释。
预测模型的结构化或非结构化特征
预测模型的单变量或多变量特征
预测模型的单步或多步结构
预测模型的连续或非连续时间序列值
连续:彼此之间呈现一致的时间间隔
非连续:时间间隔不一致(原因通常是含有缺失值或损坏值)
数据缺失原因:
(1)随机缺失:意味着数据点缺失的倾向与缺失数据无关,而与某些观测到的数据有关。
(2)完全随机确实:某个值缺失的事实与其假设值和其他变量的值没有关系。
(3)非随机缺失:两个可能的原因,缺失值取决于假设值/缺失值取决于其他变量的值。
前两种情况下,根据出现的情况删除含有缺失值的数据是安全的,而在第三种情况下,删除含有缺失值的观测值可能会在模型中产生偏差,可以使用数据插补解决。不同的问题有着不同的数据插补解决方案。