Java教程

第二章 模型评估与选择

本文主要是介绍第二章 模型评估与选择,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

2.1 经验误差与过拟合

1.误差
在这里插入图片描述
2.
m个样本样本,a个分类错误

错误率:分类错误的样本数占样本总数的比例
E = a / m E = a / m E=a/m
准确率、精度:
1 − E 1-E 1−E
我们实际希望得到的是在新样本上模型表现好的学习器。降低经验误差很容易,有些经验误差甚至为0,遗憾的是大多数这种情况都是不好的。

过拟合:

把训练样本自身特点当做潜在样本(需要被泛化的新样本)具有的一般性质。比较难解决

出现原因:学习能力过于强大,把不太一般的特点给学到了

欠拟合:

对样本的一般性质尚未学好。相对好解决

出现原因:学习能力低下

在这里插入图片描述

4.模型选择:理想的解决方案是对模型进行泛化误差评估,选择泛化误差小的模型。

2.2 评估方法

通常才用一个“测试集”来测试学习器对新样本的判别能力,然后以测试集上的“测试误差”作为泛化误差的近似,从而对模型作出评估。

测试集选取要求

样本真实分布独立同分布采样得到,尽可能与测试集相斥

留出法

从数据集D中划分二个互斥集合,S、T。即:
D = S ∪ T , S ∩ T = ∅ D=S\cup T,S\cap T =\varnothing D=S∪T,S∩T=∅
在S上训练出模型,用T来评估测试误差,作为泛化误差的估计。

**注意:**训练、测试集划分要尽量保持数据分布的一致性,避免因数据划分过程引入额外偏差。

分层采样

从抽样角度看待数据集划分,保留类别比例的采样方式。避免了因为S/T样本类别比例差别大,而产生额外的偏差。

综上,单次采用留出法划分数据集往往不够稳定可靠,在使用留出法时,一般采用若干次随机划分重复进行实验评估后取平均值作为留出法的评估效果。

交叉验证法

这篇关于第二章 模型评估与选择的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!