本章主要介绍异常检测(Anomaly detection)问题,这是机器学习算法的一个常见应用。这种算法的有趣之处在于,它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。
主要介绍了什么是异常检测,以及其应用。
Anomaly detection example
下面通过一个例子介绍什么是异常检测。
假如我们测量了飞机引擎的一些特征值,E.g.heat和vibration等等,接着我们将\(m\)个引擎的数据集绘制成图表如下所示。
假设我们现在有一个新的引擎\(x_{test}\),我们希望检测出这个引擎是否异常,或者说判断这个引擎是否需要进一步测试,这就是所谓的异常检测问题。
Density estimation
给定一组数据集\(\{x^{(1)},x^{(2)}, \cdots, x^{(m)}\}\),我们可以拟合出概率密度模型\(p(x)\),对于任意一个输入数据\(x\),概率密度模型\(p(x)\)能够告诉我们其出现的可能性如何。我们可以其出现的概率与某一个概率值\(\epsilon\)进行对比,假如大于这个概率,我们可以认为其是正常的,反之则是不正常的,这种方法称为密度估计。
\[\begin{cases} p(x) \lt \epsilon &{anomaly} \\ p(x) \ge \epsilon &{normal} \end{cases} \]Anomaly detection example
异常检测的常见应用:
本节课介绍了高斯分布(Gaussian distribution),也称为正态分布(Normal distribution)。
Gaussian (Normal) distribution
如果\(x \in \R\)服从均值为\(\mu\),方差为\(\sigma^2\)的高斯分布,记做\(x \sim N(\mu, \sigma^2)\)。则其概率密度函数为:
\[p(x;\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma}} \exp(-\frac{(x-\mu)^2}{2\sigma^2}) \]说明:
- \(\sigma\)称为标准差。
- \(\sim\)表示服从于(distributed as)。
离中心点\(\mu\)越近的\(x\)概率越大,反之越远则越小。
Gaussian distribution example
高斯分布样例:
参数\(\mu\)控制着函数最高点(中心点)的位置,\(\sigma\)控制着函数的“胖瘦”,\(\sigma\)越大,函数“越胖”,而由于概率密度函数积分为1,也就意味着函数“越矮”。
Parameter estimation
所谓的参数估计,指的是在已经有数据集\(\{x^{(1)},x^{(2)}, \cdots, x^{(m)}\}\)的情况下,预测出其所属的高斯分布,也就是预测出\(\mu\)和\(\sigma^2\)。估计方法如下:
\[\mu = \frac{1}{m} \sum_{i=1}^m x^{(i)} \\ \sigma^2 = \frac{1}{m} \sum_{i=1}^m (x^{(i)} -\mu)^2 \]注:在机器学习中方差通常只除以\(m\)而非统计学中的\((m-1)\),在实际使用中,只要数据集还算大,那么其实两者区别不大。
主要讲解如何将高斯分布应用在异常检测问题中。
Density estimation
对于给定的m个训练集\(\{x^{(1)},x^{(2)}, \cdots, x^{(m)}\}\),其中每个数据都是n维向量,即\(x \in \R^n\)。我们假设每个特征值都符合高斯分布\(x_j \sim N(\mu_j, \sigma^2_j)\),那么可以估算概率分布为:
\[\begin{aligned} p(x) &= p(x_1;\mu_1,\sigma_1^2) p(x_2;\mu_2,\sigma_2^2) \cdots p(x_m;\mu_m,\sigma_m^2) \\ &= \prod_{j=1}^m p(x_j;\mu_j,\sigma_j^2) \end{aligned} \]说明:在统计学中需要各个特征之间相互独立,但是这个算法即使不满足该条件也是可以的。
Anomaly detection algorithm
异常检测算法的计算流程如下:
Anomaly detection example
下面以一个例子走一遍异常检测算法的整个流程。
1.假设我们的数据集如下图的红色点所示,要检测的两个数据为绿色点:
2.根据数据集我们拟合出特征值\(x_1\)和\(x_2\)分别服从以下分布:
3.计算出概率密度函数\(p(x)\)图像如下:
我们令\(\epsilon=0.02\),计算\(p(x_{text}^{(1)}) = 0.0426 \ge \epsilon\),因此\(x_{text}^{(1)}\)点正常;而\(p(x_{text}^{(2)}) = 0.0021 \lt \epsilon\),因此\(x_{text}^{(2)}\)点异常。
本节课主要讲解开发一个异常检测系统的一些细节,特别是如何评估一个异常检测系统。
The importance of real-number evaluation
在开发一个学习算法时(比如选择特征值等),如果我们有办法评估我们的学习算法,那么时有利于我们作出选择的。
假设我们拥有一些带标签的数据,\(y=1\)表示正常,\(y=0\)表示异常,那么我们通常会划分数据集如下:
Aircraft engines motivating example
以之前讲解过的飞机引擎异常检测问题为例,我们拥有以下数据集:
那么可以划分数据集如下:
常见的错误划分方式如下(把交叉验证集的数据和测试集的数据混用):
Algorithm evaluation
算法评估方法如下:
主要介绍了异常检测和监督学习分别适用于什么场景,以及一些常见的应用。
我们在构建异常检测系统的时候也使用了带标签的数据,与监督学习有些相似。
下面对两者进行对比,有助于我们选择采用监督学习还是异常检测:
Anomaly detection | Supervised learning |
---|---|
Very small number of positive examples (y=1). (0-20 is common). | |
Large number of negative (y=0) examples. | Large number of positive and negative examples. |
Many different “types” of anomalies. Hard for any algorithm to learn from positive examples what the anomalies look like; future anomalies may look nothing like any of the anomalous examples we’ve seen so far. | Enough positive examples for algorithm to get a sense of what positive examples are like, future positive examples likely to be similar to ones in training set. |
常见应用:Fraud detection / Manufacturing (e.g. aircraft engines) / Monitoring machines in a data center | 常见应用:Email spam classification / Weather prediction (sunny/rainy/etc) / Cancer classification |
总结起来就是正样本的数量太少,甚至为0的时候,即有太多么见过的异常类型,那么通常应该使用的就是异常检测算法。
本节课主要讲解如何选择特征。
Non-gaussian features
在把数据输入异常检测算法之间,通常会绘制直方图,看数据的分布是否为高斯分布,如果数据不符合高斯分布,异常检测算法也能够工作,但是将数据转换成高斯分布也许会得到更好的结果。
E.g. 下面种情况通常就会采用对数函数对数据进行转换,将数据转成符合高斯分布的新的特征值。
注:在Pyhton中通常使用
np.log1p()
函数,也就是\(\log(x+1)\),可以避免出现负数结果,反向函数是np.exmp1()
。
Error analysis for anomaly detection
我们希望对于正常的样本\(x\)会得到较大的\(p(x)\),对于异常的样本\(x\)会得到较小的\(p(x)\)。然而一个常见的问题就是,对于正常和异常的样本都得到一个较大的\(p(x)\)。
E.g. 下图左图所示绿色异常点,其概率值\(p(x)\)依然较大,就会被异常检测算法错误预测为正常数据。这时我们可以寻找是否有新的特征值,如右图所示新增了特征值\(x_2\),就会发现在特征值\(x_2\)的这个维度上,绿色异常点的概率值\(p(x)\)是非常小的,异常检测算法能将其正确预测为异常数据。
Monitoring computers in a data center
我们也可以选择在异常发生的情况下非常大或非常小的特征值。
以计算机异常检测为例,有以下特征值:
假如我们的计算机是作为Web服务器使用,那么正常情况下CPU load和network traffic应该是成正比的,这种时候我们就可以定义一个新的特征值\(x_5 = \frac{CPU \space load}{network \space traffic}\),假如突然出现了\(x_5\)非常大的情况,那么我们基本上就可以判定计算机出现异常。
本节课讲解了多元高斯分布中的二元高斯分布。
Motivating example: Monitoring machines in a data center
以数据中心的机器异常检测为例。
假如我们有两个特征值分别是\(x_1,x_2\),绿色异常点在左图中的位置如下。如果我们分别对\(x_1,x_2\)求解高斯分布并计算绿色异常点的\(p(x_1),p(x_1)\),那么结果就是两个概率值都较大,异常检测算会把绿色异常点预测为正常。
分别对\(x_1\)和\(x_2\)求解高斯分布,我们得到的正常范围应该是如左图所示的红色圆形,而我们想要得到的应该是蓝色椭圆形,所以我们需要采用多元高斯分布。
Multivariate Gaussian (Normal) distribution
\(x \in \R^n\),我们不应该对分别建模\(p(x_1),p(x_2), \cdots\),而是统一建模为\(p(x)\)。
参数:\(\mu \in \R^n\),\(\Sigma \in \R^{n \times n}\)(covariance matrix,协方差矩阵)
\[\begin{aligned} p(x) &= \prod_{j=1}^n p(x_j;\mu,\sigma_j^2) \\ &= \prod_{j=1}^n \frac{1}{\sqrt{2 \pi \sigma_j}} \exp(-\frac{(x_j-\mu_j)^2}{2\sigma_j^2}) \\ &= \frac{1}{(2\pi)^{\frac{n}{2}} |\Sigma|^{\frac{1}{2}}} \exp (-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) \end{aligned} \]注:\(|\Sigma|\)为\(\Sigma\)的行列式。
Multivariate Gaussian (Normal) examples
下面我们看一下参数\(\mu\)和协方差矩阵\(\Sigma\)是如何影响模型的。
等比例缩小/放大特征1和特征2的范围:
只缩小/放大特征1的范围:
只缩小/放大特征2的范围:
改变正常范围的倾斜角度:
改变倾斜的方向:
改变峰值位置:
主要讲解如何应用多元高斯分布在异常检测问题,以及多元高斯分布和高斯分布的对比。
Multivariate Gaussian (Normal) distribution
我们前面已经得到了多元高斯分布的表达式为:
\[p(x) = \frac{1}{(2\pi)^{\frac{n}{2}} |\Sigma|^{\frac{1}{2}}} \exp (-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)) \]那么和高斯分布一样,我们接下来要做的就是拟合参数\(\mu\)和\(\Sigma\):
\[\mu = \frac{1}{m}\sum_{i=1}^mx^{(i)} \\ \Sigma = \frac{1}{m}\sum_{i=1}^m(x^{(i)}-\mu)(x^{(i)}-\mu)^T = \frac{1}{m}(X-\mu)^T(X-\mu) \]Anomaly detection with the multivariate Gaussian
总结起来,多元高斯分布的异常检测问题步骤如下:
Relationship to original model
原始模型的图形是绝对关于坐标轴对称的,也就是说原始模型实际上就是多元高斯分布的一种特殊情况,当多元高斯分布的\(\Sigma\)除了斜对角线所有元素都为0的时候,就变成了原始模型。
Original model vs. Multivariate Gaussian
Original model | Multivariate Gaussian |
---|---|
\(p(x_1;\mu_1,\sigma_1^2) p(x_2;\mu_2,\sigma_2^2) \cdots p(x_n;\mu_n,\sigma_n^2)\) | $p(x;\mu,\sigma^2) = \frac{1}{(2\pi)^{\frac{n}{2}} |
Manually create features to capture anomalies where \(x_1,x_2\) take unusual combinations of values. | Automatically captures correlations between features. |
Computationally cheaper (alternatively, scales better to large ) | Computationally more expensive. |
OK even if \(m\) (training set size) is small | Must have \(m \gt n\) , or else \(\Sigma\) is non-invertible. |
注:
- 更常用的还是原始模型;
- 如果在应用多元高斯分布时发生了\(\Sigma\)不可逆的情况,那么通常可能是没有满足\(m \gt n\)或者出现了冗余特征值。