datawhale吃瓜教程Task01-概览西瓜书+南瓜书1、2章

本文主要是介绍datawhale吃瓜教程Task01-概览西瓜书+南瓜书1、2章，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

第一章绪论

基本术语

机器学习定义：假设用P来评估计算机程序在某一个任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。
属性：反映事件或对象在某方向的表现或性质，也称为特征。如西瓜的“色泽”、“敲声”等。
属性值：顾名思义，属性的取值就称为属性值，如“青绿”、“乌黑”等。
属性空间：属性张成的空间称为属性空间，也称为样本空间或者“输入空间”。如把“色泽”、“根蒂”、“敲声”作为三个坐标轴，则他们张成一个描述西瓜的三维空间，每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中每个点都对应一个坐标向量，所以我们也在一个实例称为一个“特征向量”。
数据集: 一组记录的集合称为数据集。
样本：其中每一条记录是关于一个事件或对象的描述，称为示例或样本，例如：（色泽=青绿；根蒂=稍蜷；敲声=沉闷）
学习：从数据中学得模型的过程称为学习，这个过程一般通过执行某个学习算法来完成，也称为训练。
训练数据：训练过程中使用的数据称为训练数据。
训练样本：训练过程的每个样本称为训练样本。
训练集：由训练样本组成的集合称为训练集。
假设：学得模型对应了关于数据的某种潜在的规律,即hypothesis，这个英文名我们会在后续文章中继续用到。
学习器：其实学习的过程是为了找出或者逼近真相，所以我们有时候也把模型称为“学习器”，可看作学习算法在给定数据和参数空间上的实例化。
标记（label）：想要学得一个模型，仅有已有的示例数据是不够的。要建立一个关于预测的模型，需要获得训练样本的“结果”信息。例如“（（色泽=青绿；根蒂=稍蜷；敲声=浊响），好瓜）”。这里关于示例结果的信息“好瓜”，就称为标记。
分类：如果我们预测的值是离散值，如“好瓜”、“坏瓜”，这一类学习任务就称为分类。
回归：如果我们预测的值是连续值，例如西瓜的成熟度0.78,0.37，则我们称此类学习任务为回归。
监督学习（supervised learning）：训练的数据既有特征又有标签(，通过训练，典型代表是分类和回归。
无监督学习（unsupervised learning）：训练的数据没有标签存在，通过数据之间的内在联系和相似性将他们分成若干类。典型代表为聚类。
泛化能力：我们学的模型可以适用于新样本的能力称为泛化能力，具有强泛化能力的模型可以很好的适用于整个样本空间。
独立同分布：假设样本空间中全体样本服从一个未知的“分布”D，我们获得的每个样本都是独地从这个分布上采样获得的，即“独立同分布”。

奥卡姆剃刀

奥卡姆剃刀为我们提供了一种常用的，自然科学研究种最基本的法则，可以用来引导算法确立“正确”的偏好。即“若有多个假设与观察一致，则选择最简单的那个”。

根据“奥卡姆剃刀”法则，对于如下两个算法A和B，我们根据平滑曲线的某种“描述简单性”希望算法A的性能比算法B更好。左图的结果显示：与B相比，A与训练集外的样本更一致，换言之，A的泛化能力比B强。但是右图的结果显示算法B的性能更好，这种情况也有可能出现。

第二章模型评估与选择

这篇关于datawhale吃瓜教程Task01-概览西瓜书+南瓜书1、2章的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程