示例结果的信息,例如“好瓜”,称为标记
学得模型对应了数据的某种潜在的规律,因此亦称假设
数据集中的每条记录是关于某个事件或对象的描述,称为一个“示例”或“样本”
反映事务或对象在某方面的表现或性质的事项,如“色泽”,称为属性或特征
属性长成的空间称为属性空间,样本空间,或输入空间
数据记录的集合称为一个数据集
同属性
从数据中学得模型的过程称为学习或训练
学习过程就是为了找出或逼近真相,有时将模型称作学习器
同学习
训练过程中使用的数据称为“训练集”,其中每个样本称为一个“训练样本”,训练样本组成的集合称为训练集
见训练集
同示例
同属性空间
同示例(instance)
潜在规律本身称为真相或真实
所有标记的集合称为标记空间或输出空间
学得模型后,使用其进行预测的过程称为测试,被预测的样本称为测试样本
见测试
将训练集中的西瓜分成若干组,称为聚类,每个组称为一个簇
我们获得的每个样本都是独立的从一个分布上采样获得的,即“独立同分布”
预测值涉及多个类别时,称为“多分类”
预测值设计两个分类的任务
学得模型适用于新样本的能力,称为“泛化”能力
如果预测的是离散值,此类学习任务称为分类
如果预测的值是连续值,此类学习任务称为回归
根据训练数据是否拥有标记信息,学习任务可以大致分为两大类:监督学习和无监督学习,分类和回归是前者的代表,聚类是后者的代表
见簇
同无监督学习
见有监督学习
同有监督学习
广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,因此亦称为概念学习或概念形成
从样例中学习
存在着一个与训练集一致的假设集合,称之为“版本空间”
机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好
同归纳偏好
若有多个假设与观察一致,则选最简单的那个
基于逻辑表示
基于神经网络
有很多种说法。。见仁见智
信息存储与检索
通过观察和发现学习
从指令中学习
如SVM,核方法
从海量数据中发掘知识
类比学习升级版
分类错误的样本数占样本总数的比例称为错误率,即如果在m个样本中有a个样本分类错误,则错误率E = a/m;相应的,1-a/m称为精度。
在新样本上的误差称为泛化误差
当学习器把训练样本学得太好了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象称为过拟合
同过拟合
精度=1-错误率
学习器在训练集上的误差称为“训练误差”
欠拟合,对训练样本的一般性质尚未学好
学习器的实际预测输出与样本的真实输出之间的差异称为误差
同经验误差
选择学习算法与参数配置
如果从采样的角度看待数据集的划分过程,则保留类别比例的采样方式通常称为“分层采样”
直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。
交叉验证先将数据集D划分为k个大小相似的互斥子集,每个自己都尽可能保持数据分布的一致性,即从数据集中分层采样得到,然后,每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就可以获得k组训练/测试集,最终返回k个测试结果的均值,交叉验证评估结果的稳定性和保真性很大程度上取决于k的取值,通常称之为k折交叉验证,最常用的k是10
同k折交叉验证
用于测试的样本没在训练集中出现,这样的测试结果称为包外估计
以自主采样法为基础,给定包含m个样本的数据集D,对它采样产生数据集D’:每次随机从D中挑选一个样本,将其考本放入D’, 然后再将该样本放回D中,下次可能再被采到,这个过程执行m次后,得到包含m个样本的数据集D’,m足够大时,有36.8%的样本不会被采到,于是可以用没采到的部分做测试集。
大多数学习算法有些参数需要设定,参数配置不同,学得模型的性能往往有显著差别,因此,在进行模型评估与选择时,除了要对适用学习算法进行选择,还需要对算法参数进行设定,这就是参数调节或者调参。
通常把学得模型在实际使用中遇到的数据称为测试数据,为了加以区分,为了加以区分,模型评估与选择中用于评估测试的数据集常称为“验证集”。
回归任务最常用的性能度量是均方误差(几何距离)
预测为真且正确的结果占所有预测正确的结果的比例。
预测为真且正确的结果占所有预测结果的比例。