Error 来源于bias(误差,期望歪了)和variance(方差,模型能覆盖的范围)。
bias大:underfitting欠拟合
原因:模型不够复杂,覆盖范围不够广
Variance大:overfitting过拟合
原因:模型太复杂,覆盖范围太大
数据不够时,可以自己造一些,如:
在bias和variance中做权衡,最终最小化总误差。
bias和variance的判断方法:符合training data是variance,不符合的是bias。
N-fold Cross Validation
然后选择最好的一个模型,用全部Training Set进行训练。