学习算法:利用经验来改善系统自身性能,在计算机上从数据中产生“模型”的算法。
“模型”:泛指从数据中学得的结果。
数据集:一组记录的集合。
示例/样本:每条记录关于一个事件或对象的描述
属性/特征:反映事件或对象在某方面的表现 或 性质 的事项。
属性的“取值”,叫属性值。
属性张成的空间叫: 属性空间/样本空间/输入空间。
每一个对象都在这个空间中找到自己的 坐标位置 , 这样一个示例也叫:特征向量。
那么我们常说“机器学习”的学习 “对计算机进行训练” 的训练又指的是什么?
从数据中学得模型的过程就是learning/training。
仅仅有判断是不够的,我们要做的是——预测。
关于示例结果的信息(如“好瓜”),称为“标记”。
预测的是离散值,这类学习任务叫:分类 classification
预测的是连续值,这类学习任务叫:回归 regression
学得模型后,使用该模型进行预测的过程:测试 testing
预测任务是希望通过对训练集进行学习,建立映射。
我们对训练集中的示例进行分组,每一组就是一个“簇”,但是在这种聚类学习中,我们对潜在的划分事先是不知道的。
而且学习中使用的训练样本通常不拥有标记信息。
所以这方面,根据数据是否拥有标记信息,将学习任务分为两类: 监督学习(eg:分类,回归) 无监督学习(eg:聚类)
学得模型适用于新样本的能力:称为“泛化”能力。
训练样本越多,关于它的结果(称之为未知“分布”)得到的结果越多,这样就越有可能获得具有强泛化学习能力。
归纳学习: 狭义:从训练数据中学得概念
广义:从样例中学习
布尔学习
学习过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配“的假设。
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。
任何一个有效的机器学习必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑。
“奥卡姆剃刀”:若有多个假设与观察一致,则选最简单那个。
NFL定理:无论算法多聪明或多笨拙,它们的期望性能相同。
我们将学习器对样本的实际预测结果与样本的真实值之间的差异成为:误差(error)。
机器学习模型和人学习是类似的,也有好学生和差学生:
过拟合问题还没有十分好的解决方案,过拟合是机器学习面临的关键障碍。
我们往往有多种算法可供选择,我们希望得到的是泛化误差小的学习器,理想的解决方案是对模型的泛化误差进行评估,然后选择泛化误差最小的那个学习器。
大多数学习算法都有些参数(parameter) 需要设定,参数配置不同,学得模型的性能往往有显著差别,这就是通常所说的”参数调节”或简称”调参” (parameter tuning)。
解释学习算法泛化性能的一种重要工具。
一般来说,偏差和方差是有冲突的,这叫做“偏差-方差窘境”。