机器学习:利用“数据”作为“经验”形式,让计算机在计算数据时产生 “模型”,然后根据得到的“经验”模型来对新的情况作出判断。
基本术语
样本:记录中对一个事件或对象的描述
数据集:一组记录的集合
属性:反映时间或对象在某方面的表现或性质
样本空间:所有属性组成的空间,例如:色泽青绿、根蒂蜷缩、声音浊响的西瓜。其中(色泽青绿、根蒂蜷缩、敲声浊响)是一条记录,这条记录中描述西瓜的内容为一个样本;色泽、根蒂、敲声为西瓜的属性,青绿、蜷缩、浊响为各属性对应的属性值;三种属性组成描述西瓜的三维样本空间,映射到空间中的坐标向量为其特征向量。
训练数据:用于模型训练的数据
测试数据:使用模型进行预测的数据
机器学习两大类:监督学习与无监督学习,其中监督学习包括分类和回归,无监督学习包括聚类。
“泛化”能力:学得的模型适用于新样本的能力,具有强泛化能力的模型可较好的用于整个样本空间
独立同分布:样本空间中全体样本服从同一个未知分布,且各个样本之间是独立的
布尔值:0/1,即“是”或“不是”
假设空间:由判断事物的可能取值所形成的假设组成。例如西瓜的色泽可能有“青绿”“乌黑”“浅白”以及任意值都行四种情况。特别注意“取什么都合适”这种可能。同时计算假设空间时还应考虑一种极端情况,就是空集。
版本空间:存在着一个与训练集一致的“假设集合”。
“奥卡姆剃刀”原则:若有多个假设与观察一致,则选择最简单的那个。
归纳偏好:是对应于“选择什么样的模型更好”的假设,根据NFL定理(No Free Lunch Theorem,没有免费的午餐)得到:理想状态下不同学习算法的期望值相同,因此在算法选择时,要结合具体的问题,考虑算法自身的归纳偏好与问题是否相配,具体问题具体分析。
基本术语
错误率:分类错误的样本数占样本总数的比例
精度:1-错误率
误差:学习器的实际预测输出与样本的真实输出之间的差异
训练误差(经验误差):学习器在训练集上的误差
泛化误差:在新样本上的误差
过拟合:学习器把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,从而导致泛化性能下降。
欠拟合:学习器不能完全学习训练样本的一般性质。
多项式时间(Polynomial time):在计算复杂度理论中,指的是一个问题的计算时间m(n)不大于问题大小n的多项式倍数。任何抽象机器都拥有一复杂度类,此类包括可于此机器以多项式时间求解的问题。
P问题:指的是能够在多项式的时间里得到解决的问题。 NP问题:指的是能够在多项式的时间里验证一个解是否正确的问题。 注:过拟合是机器学习的关键障碍,任何算法都不能彻底的避免,即“P≠NP”,只能尽可能的减少其影响,在模型选择时,对模型的泛化误差进行评估,选择最优模型。
模型评估:通过测试集来测试学习器对新样本的判别能力,将测试误差近似为泛化误差,测试集是从样本真实分布中采样得来,但应尽可能与训练集互斥。
训练集与测试集划分方法:
留出法:直接将数据集D划分为两个互斥的集合,一个为训练集S,一个为训练集T,即D=S∪T,S∩T=空集。
数据集的划分的三个方面:
1、要尽可能保持数据分布的一致性,避免引入额外的误差。
2、确定样本比例后,仍存在多种分割方式,因此需要若干次随机划分、重复进行试验评估后取平均值作为评估结果。
3、一般将数据集的2/3~4/5作为训练,剩余作为测试。
分层采样:保留类别比例的采样方式,例如对一个包含500个正例、500个反例的数据集进行分层采样获得含70%的训练集和30%的测试集,则得到的训练集中包含350个正例、350个反例,测试集中包含150个正例以及150个反例。
交叉验证法:先将数据集划分为K个大小相似的互斥子集,每个自己都尽可能保持数据分布独立性,然后每次用k-1个子集的并集作为训练集,剩下一个作为测试集,进行k次训练和测试,将k次结果的均值作为最终结果。
K折交叉验证:交叉验证法评估结果的稳定性和保真性很大程度上取决于k的取值,因此交叉验证法成为“k折交叉验证”,常用值为10,即为10折交叉验证。
p次k折交叉验证:k折交叉验证要随机使用不同的划分重复P次,最终结果为P次k折交叉验证结果的均值。
留一法:数据集中包含m个样本,令K=m可得到交叉验证的一个特例。留一法中被实际评估的模型与期望评估的用数据集训练的模型相似,评估结果相对准确,但当数据集较大时,计算量太大。
自助法:给定m个样本的数据集,对其采样产生数据集D':每次随机从数据集D取一个样本放入D',然后将此样本放回初始数据集中,重复取m次(有放回取m次)。保证了D'和D的规模一致。但D'虽然也有m个样本,可其中会出现重复的样本,而D中会存在D'采样没有采到的样本,这些样本就留作测试集。即通过自助采样,约有三分之一的样本没有出现在D′之中。于是将D'用作训练集,D\D'用作测试集。
包外估计:通过自助采样,实际评估的模型与期望评估的模型都使用m个训练样本,而仍有数据总量约1/3的,没有在训练集中出现的样本用于测试,其结果为“包外估计”。
注:自助法主要用于数据集较小、难以有效划分训练/测试集时,在数据量够时一般使用留出法和交叉验证法。
调参:对算法参数进行设定以获得最好的模型
机器学习的两类参数:一类是算法参数,一类是模型参数。
验证集:模型评估与选择中用于评估测试的数据集
性能度量:衡量模型泛化能力的评价标准。对比不同模型的的能力时,使用不同的性能度量往往会导致不同的评判结果,意味着模型的“好坏”是相对的,好的模型不仅取决于算法和数据,而且取决于任务需求。
均方误差:回归任务最常用的性能度量,均方误差大的模型性能差,均方误差小的模型性能好。
分类性能度量:错误率和精度;查准率和查全率。
错误率与精度反应的是分类任务模型判断正确与否的能力,通常,错误率低精度高的模型性能好,错误率高精度低的模型性能差。当需要反应的不是判断正确与否的能力,而是正例、反例查出的准确率时,就不能用错误率和精度作为判断分类任务模型的性能度量,此时要引入查准率(P)、查全率(R)的概念。
查准率:真正例样本数与预测结果是正例的样本数的比值。 查全率:真正例样本数与真实情况是正例的样本数的比值。 一般情况下,查准率高时,查全率偏低;查全率高时,查准率偏低。通常只在一些简单任务中,查准率和查全率都偏高。
P-R曲线:以查全率做横轴,查准率做纵轴作图得到。P-R曲线判断方法:曲线没有交叉:外侧曲线的学习器性能优于内侧;曲线有交叉:一、比较曲线下面积的大小。二、比较两条曲线的平衡点,平衡点是“查准率=查全率”时的取值,在图中表示为曲线和对角线的交点。平衡点在外侧的曲线的学习器性能优于内侧。三、F1度量和Fβ度量。F1是基于查准率与查全率的调和平均定义的,Fβ则是加权调和平均。F1度量的一般形式是Fβ。在不同的应用中,对查准率和查全率的重视程度不同,β>1时:查全率有更大影响;β=1时:影响相同,退化成F1度量;β<1时:查准率有更大影响。
n个混淆矩阵的查准率和查全率综合考察: “宏查准率”、“宏查全率”和“宏F1”:分别计算n个混淆矩阵的查准率和查全率,再计算平均值。 “微查准率”、“微查全率”和“微F1”:先将n个混淆矩阵的对应元素进行平均,再计算查准率、查全率和微F1。
ROC曲线:全称为“受试者工作特征”曲线,以真正例率为纵轴,以假正例率为横轴作图。ROC曲线性能度量的方法与P-R图相似:在曲线没有交叉时:外侧曲线的学习器性能优于内侧;在曲线有交叉时:比较ROC面积,即AUC(ROC曲线下各部分的面积求和)。