最小二乘法(least squares)是我们很早就就接触过的一类方法,是广义线性回归的特殊情形——即一元线性回归。本文将假设误差遵从高斯——马尔可夫假设,证明为什么在该假设下,最小二乘法求得的系数是最佳的,证明无偏估计、并推导系数的的方差。
最小二乘法数学式:
y i = x i T β + ε i y_i=x_i^{T}\beta + \varepsilon_i yi=xiTβ+εi --(1)
x i = ( 1 , x i 0 , x i 1 , . . . , x i k ) T , β = b 0 , b 1 , b 2 , . . . , b k T x_i=(1, x_{i0}, x_{i1},...,x_{ik})^{T}, \beta={b_0, b_1, b_2,...,b_k}^T xi=(1,xi0,xi1,...,xik)T,β=b0,b1,b2,...,bkT。
ε \varepsilon ε为误差项,假设其服从高斯——马尔可夫假设,即均值为0,且与随机变量 x i x_i xi无关,所有的误差的方差都相同且各自之间不相关且 X X X为一个确定值。既有:
E ( ε i ) = 0 E(\varepsilon_i) = 0 E(εi)=0, − ( 假 设 1 ) \ \ \ \ \ -(假设1) −(假设1)
E ( ε ∣ x ) = 0 E(\varepsilon|x)=0 E(ε∣x)=0, − ( 假 设 2 ) \ \ \ \ \ -(假设2) −(假设2)
v a r ( ε ) = σ 2 I var(\varepsilon) = \sigma^2I var(ε)=σ2I。 − ( 假 设 3 ) \ \ \ \ \ -(假设3) −(假设3)
其中 I I I为单位矩阵。
下面首先求 β \beta β的估计值 β ^ \hat{\beta} β^,并证明它是 β \beta β的无偏估计,先不考虑(1)式中的误差项,并将有所的样本带入上市,我们可得:
Y = X T β Y = X^T\beta Y=XTβ − ( 2 ) \ \ \ \ -(2) −(2)
其中
Y
=
(
y
0
,
y
1
,
.
.
.
,
y
n
)
,
X
=
(
x
0
T
x
1
T
.
.
.
x
n
T
)
Y=(y_0, y_1, ..., y_n), X=\begin{pmatrix}x_0^T \\ x_1^T \\... \\ x_n^T\end{pmatrix}
Y=(y0,y1,...,yn),X=⎝⎜⎜⎛x0Tx1T...xnT⎠⎟⎟⎞
为了求出
β
\beta
β的值,首先将(2)式两边左乘
X
X
X,然后在左乘
(
X
X
T
)
−
1
(XX^T)^{-1}
(XXT)−1,即可推出
β ^ = ( X X T ) − 1 X Y \hat\beta=(XX^T)^{-1}XY β^=(XXT)−1XY
下面证明
β
^
\hat\beta
β^是
β
\beta
β的无偏估计。
E
(
β
^
)
=
E
(
(
X
X
T
)
−
1
X
Y
)
=
E
(
(
X
X
T
)
−
1
X
(
X
T
β
+
ε
)
)
=
E
(
β
+
(
X
X
T
)
−
1
X
ε
)
=
β
+
E
(
β
+
(
X
X
T
)
−
1
X
ε
)
−
(
3
)
=
β
+
E
(
(
X
X
T
)
−
1
X
)
∗
E
(
ε
)
−
(
4
)
=
β
−
(
5
)
\begin{array}{rcl} E(\hat\beta)&=&\text{E}((XX^T)^{-1}XY)\\&=&E((XX^T)^{-1}X(X^T\beta + \varepsilon))\\&=&\text{E}(\beta+(XX^T)^{-1}X\varepsilon) \\&=&\beta+E(\beta+(XX^T)^{-1}X\varepsilon) \ \ \ \ \ \ -(3) \\&=&\beta + E((XX^T)^{-1}X)*E(\varepsilon) \ \ \ \ \ -(4) \\&=&\beta\ \ \ \ \ -(5) \end{array}
E(β^)======E((XXT)−1XY)E((XXT)−1X(XTβ+ε))E(β+(XXT)−1Xε)β+E(β+(XXT)−1Xε) −(3)β+E((XXT)−1X)∗E(ε) −(4)β −(5)
上式(3)到(4)利用了假设2,(4)到(5)利用了假设3,证毕。
下面求系数的标准差。
v
a
r
(
β
ˉ
)
=
E
(
(
β
^
−
β
)
(
β
^
−
β
)
T
)
=
E
(
(
X
X
T
)
−
1
X
ε
∗
ε
T
X
T
(
X
X
T
)
−
1
)
−
(
5
)
=
(
X
X
T
)
−
1
X
E
(
ε
ε
T
)
X
T
(
X
X
T
)
−
1
−
(
6
)
=
σ
2
(
X
X
T
)
−
1
\begin{array}{rcl} var(\bar\beta)&=&E((\hat\beta-\beta)(\hat\beta-\beta)^T) \\&=&E((XX^T)^{-1}X\varepsilon*\varepsilon^TX^T(XX^T)^{-1})\ \ \ \ \ -(5) \\&=&(XX^T)^{-1}XE(\varepsilon\varepsilon^T) X^T(XX^T)^{-1}\ \ \ \ \ -(6) \\&=&\sigma^2(XX^T)^{-1}\end{array}
var(βˉ)====E((β^−β)(β^−β)T)E((XXT)−1Xε∗εTXT(XXT)−1) −(5)(XXT)−1XE(εεT)XT(XXT)−1 −(6)σ2(XXT)−1
从(5)式到(6式)的原因是我们假设 X X X为确定值,对于每一个系数,它的标准差为:
S E i = σ 2 ( X T X ) i i − 1 SE_i=\sqrt{\sigma^2(X^TX)^{-1}_{ii}} SEi=σ2(XTX)ii−1
现在用反证法来证明最小二乘估计是最佳无偏线性估计,假设存在比最小二乘估计更好的无偏线性估计$ \bar\beta=CY , 由 于 , 由于 ,由于C 的 任 意 性 , 设 的任意性,设 的任意性,设C=(XXT){-1}X + D , 其 中 ,其中 ,其中D 是 是 是(k+1)*N 的 非 零 矩 阵 , 的非零矩阵, 的非零矩阵,k+1 为 特 征 个 数 加 上 一 个 常 量 项 , 为特征个数加上一个常量项, 为特征个数加上一个常量项,N$为样本个数。
由假设条件, 是无偏估计,所以必须满足
E
(
β
ˉ
)
=
β
E(\bar\beta)=\beta
E(βˉ)=β,而:
E
(
β
ˉ
)
=
E
(
C
Y
)
=
E
(
(
(
X
X
T
)
−
1
X
+
D
)
(
X
T
β
+
ε
)
)
=
E
(
(
(
X
X
T
)
−
1
X
+
D
)
X
T
β
)
+
E
(
(
X
X
T
)
−
1
X
+
D
)
E
(
ε
)
=
E
(
(
(
X
X
T
)
−
1
X
+
D
)
X
T
β
)
=
β
(
I
+
D
X
T
)
\begin{array}{rcl}E(\bar\beta)&=&E(CY)\\&=&E(((XX^T)^{-1}X + D)(X^T\beta+\varepsilon)) \\&=&E(((XX^T)^{-1}X + D)X^T\beta) + E((XX^T)^{-1}X + D)E(\varepsilon) \\&=&E(((XX^T)^{-1}X + D)X^T\beta) \\&=&\beta(I + DX^T) \end{array}
E(βˉ)=====E(CY)E(((XXT)−1X+D)(XTβ+ε))E(((XXT)−1X+D)XTβ)+E((XXT)−1X+D)E(ε)E(((XXT)−1X+D)XTβ)β(I+DXT)
所以
D
X
T
=
0
DX^T=0
DXT=0。
既有:
v
a
r
(
β
ˉ
)
=
E
[
[
(
(
X
X
T
)
−
1
X
+
D
)
Y
−
(
(
X
X
T
)
−
1
X
Y
−
(
X
X
T
)
−
1
X
ε
)
]
[
(
(
X
X
T
)
−
1
X
+
D
)
Y
−
(
(
X
X
T
)
−
1
X
Y
−
(
X
X
T
)
−
1
X
ε
)
T
]
]
=
E
[
(
D
Y
+
(
X
X
T
)
−
1
X
ε
)
(
D
Y
+
(
X
X
T
)
−
1
X
ε
)
T
]
=
E
(
D
Y
Y
T
D
T
+
D
Y
ε
T
X
T
(
X
X
T
)
−
1
+
(
X
X
T
)
−
1
X
ε
Y
T
D
T
+
(
X
X
T
)
−
1
X
ε
ε
T
X
T
(
X
X
T
)
−
1
)
=
σ
2
D
D
T
+
E
(
D
(
X
T
β
+
ε
)
ε
T
X
T
(
X
X
T
)
−
1
)
+
E
(
(
X
X
T
)
−
1
X
ε
(
X
T
β
+
ε
)
T
D
T
)
+
σ
2
E
(
X
X
T
)
−
1
=
σ
2
D
D
T
+
E
(
D
X
T
β
ε
T
X
T
∗
(
X
X
T
)
−
1
)
+
E
(
D
ε
ε
T
X
T
(
X
X
T
)
−
1
)
+
E
(
(
X
X
T
)
X
ε
β
T
X
D
T
)
+
E
(
(
X
X
T
)
X
ε
ε
T
D
T
)
+
σ
2
E
(
X
X
T
)
−
1
=
σ
2
D
D
T
+
σ
2
E
(
X
X
T
)
−
1
\begin{array}{rcl}var(\bar\beta)&=&E[[((XX^T)^{-1}X+D)Y - ((XX^T)^{-1}XY-(XX^T)^{-1}X\varepsilon)][((XX^T)^{-1}X+D)Y - ((XX^T)^{-1}XY-(XX^T)^{-1}X\varepsilon)^T]]\\ &=&E[(DY+(XX^T)^{-1}X\varepsilon)(DY+(XX^T)^{-1}X\varepsilon)^T]\\ &=&E(DYY^TD^T+DY\varepsilon^TX^T(XX^T)^{-1} + (XX^T)^{-1}X\varepsilon Y^TD^T+(XX^T)^{-1}X\varepsilon\varepsilon^TX^T(XX^T)^{-1})\\ &=&\sigma^2DD^T+E(D(X^T\beta+\varepsilon)\varepsilon^TX^T(XX^T)^{-1}) + E((XX^T)^{-1}X\varepsilon(X^T\beta+\varepsilon)^TD^T) + \sigma^2E(XX^T)^{-1}\\&=&\sigma^2DD^T + E(DX^T\beta\varepsilon^TX^T*(XX^T)^{-1}) + E(D\varepsilon\varepsilon^TX^T(XX^T)^{-1}) + E((XX^T)X\varepsilon \beta^TX D^T) + E((XX^T)X\varepsilon \varepsilon^T D^T) + \sigma^2E(XX^T)^{-1}\\ &=&\sigma^2DD^T + \sigma^2E(XX^T)^{-1} \end{array}
var(βˉ)======E[[((XXT)−1X+D)Y−((XXT)−1XY−(XXT)−1Xε)][((XXT)−1X+D)Y−((XXT)−1XY−(XXT)−1Xε)T]]E[(DY+(XXT)−1Xε)(DY+(XXT)−1Xε)T]E(DYYTDT+DYεTXT(XXT)−1+(XXT)−1XεYTDT+(XXT)−1XεεTXT(XXT)−1)σ2DDT+E(D(XTβ+ε)εTXT(XXT)−1)+E((XXT)−1Xε(XTβ+ε)TDT)+σ2E(XXT)−1σ2DDT+E(DXTβεTXT∗(XXT)−1)+E(DεεTXT(XXT)−1)+E((XXT)XεβTXDT)+E((XXT)XεεTDT)+σ2E(XXT)−1σ2DDT+σ2E(XXT)−1
由于 D D T DD^T DDT对角线上的值都是大于等于0的,因此 β ˉ \bar\beta βˉ的协方差是大于等于 β ^ \hat\beta β^的,与原假设相矛盾,也即 β ^ \hat\beta β^是最佳的无偏估计,证毕。
高斯-马尔可夫定理的优点在于,它证明了简单的线性模型计算出的参数是最优的,而线性模型的最大优点在于计算简单、效率高,同时我们也可以检验出计算出的系数是否是显著的。它的局限性就在于它的几个强假设,比如 X X X是确定的,且各个误差项都是独立的且均值都为0,但在实际情况中,上面的假设是比较强的,如 X X X是会受到抽样的影响,在时序数据中,各个误差项并不独立。另一方面,高斯-马尔可夫定理针对的是线性情况,在非线性下它的结论不在成立。
参考文献:
[1]最小二乘法与高斯-马尔可夫定理
[2]高斯-马尔可夫定理-维基百科
[3]常用算法分析——最小二乘法
[4]最小二乘法的利与弊:高斯马尔科夫定理