统计学习方法的三要素是 模型 + 策略 + 算法。
统计学习的过程就是在假设空间中搜索,确定最终模型的过程。模型(某个形式)确定了假设空间(某个函数族),比如:假设最后决策函数的形式是线性函数,那么就确定了假设空间是线性函数组成的函数族,一般由一个参数向量 \(\theta\) 确定。
策略就是用来选择模型的依据,我们希望模型预测的结果应该尽量和真实结果相同,或者接近,首先要量化如何评判这种相同或者接近。
定义损失函数 \(\mathfrak{L}(y,f(x))\) , 它衡量了一次预测的好坏,风险函数 \(R_{exp}(f)\) 衡量期望意义下模型预测的好坏。
选择模型就是要选择风险函数最小的模型。
由于 $X, Y $ 独立同分布,风险函数 \(R_{exp}(f) = \int \mathfrak{L}(y,f(x))P(x,y)dxdy\)
然而 \(P(x, y)\) 是我们未知的,事实上,如果已知 \(P(x,y)\), 就可以直接求出条件概率分布 \(P(y|x)\).
因此需要用其他形式来近似风险函数。
\(R_{emp}(f)\) 是经验风险函数,它是损失函数在数据集上的平均。
\(R_{emp}(f) = \frac{\sum \mathfrak{L}(y^{(i)}, f(x^{(i)}))}{N}\)
由大数定律,当 N 趋向于无穷时,经验风险趋近于期望风险。
然而现实中数据集往往不够大,因此这个近似的效果可能并不一定特别好,因此需要一些修正。
选择的依据主要有经验风险最小化和结构风险最小化。
经验风险最小化就是使经验风险最小,然而当数据集不大时或者模型比较复杂的时候经验风险最小化可能有过拟合的风险。
结构风险 \(R_{srm}(f) = R_{emp}(f) + \lambda J(f)\), 第二项 \(J(f)\) 是复杂度项,对模型的复杂度施加惩罚, 结构风险最小化就是正则化。结构风险最小化可以解决过拟合的问题。
综上,模型的选择标准被量化成风险函数。选择模型就变成了一个最优化问题。
由上,统计学习问题被转化成了最优化问题。当存在闭式解,那么该问题是比较简单的,当不存在闭式解,就需要使用数值计算方法,比如梯度下降。在设计或选择学习算法时,如何保证得到全局最优解和求解的效率是需要考虑的。