线性回归模型的自变量之间存在近似线性关系。
什么是VIF?
VIF衡量了多重共线性使相应的系数的估计值的方差的增大程度。一个系数的VIF越大,说明多重共线性增大了这个系数估计值的方差。
怎么计算VIF?
假设线性模型为 Y = β 0 + β 1 X 1 + ⋯ + β p X p + e Y=\beta_0+\beta_1X_1+\cdots+\beta_pX_p+e Y=β0+β1X1+⋯+βpXp+e,假设要计算 β k \beta_k βk的VIF,先用其它自变量对 β k \beta_k βk进行回归,即 X k = β 0 + β 1 X 1 + ⋯ + β k − 1 X k − 1 + β k + 1 X k + 1 + ⋯ + + β p X p + e X_k=\beta_0+\beta_1X_1+\cdots+\beta_{k-1}X_{k-1}+\beta_{k+1}X_{k+1}+\cdots++\beta_pX_p+e Xk=β0+β1X1+⋯+βk−1Xk−1+βk+1Xk+1+⋯++βpXp+e
然后计算此模型的 R 2 R^2 R2,进而得到 V I F = 1 1 − R 2 VIF=\frac{1}{1-R^2} VIF=1−R21
V I F VIF VIF越大,说明 R 2 R^2 R2越大,说明模型拟合的越好,即 X k X_k Xk越有可能和其它自变量有线性相关关系
有的是VIF>10,有的是VIF>5
相关系数越大,说明越有可能存在线性相关关系。但相关系数小,不能说明不存在复共线性?(难道是因为不相关不能推出不独立,即两个变量即使相关系数很小,但依旧是不独立的?)、
参数更新方式: weights = weights - alpha * dataMatrix.transpose()* error
,所以对逻辑回归损失函数的最优化没影响
模型参数估计不准确,有时甚至会出现回归系数的符号与实际情况完全相反的情况
本应该显著的自变量不显著,本不显著的自变量却呈现出显著性(也就是说,无法从p-值的大小判断出变量是否显著)
多重共线性使参数估计值的方差增大,模型参数不稳定,也就是每次训练得到的权重系数差异都比较大
参考:多重共线性详解