问答题:
1、机器学习根据任务类型,可以划分为哪些?
根据处理的数据是否具有标签信息,我们可以将机器学习分为监督学习、无监督学习、半监督学习、强化学习等几种类型。
机器学习的种类及其主要任务_贾路飞的博客-CSDN博客_机器学习任务
2、机器学习根据算法类型,可以分为哪些?
分类
回归
机器学习算法分类 - 秋雨秋雨秋雨 - 博客园
常见机器学习分类_梦沁清风-CSDN博客_机器学习分类
3、什么是没有免费的午餐定理?
没有一种机器学习算法是适用于所有情况的
机器学习之基本定义
1、什么是机器学习?
机器学习是对大量数据进行分析,寻找统计规律,建模,并使用模型对新数据进行预测和分析的学科。
2、为什么要用机器学习?
3、机器学习的对象、方法、目的、学科相关
4、实现机器学习的步骤
5、机器学习方法的三要素
1、模型
模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。
条件分布函数:
决策函数:
2、策略
模型的假设空间中包含所有可能的条件概率分布或决策函数,那么我们如何选择最优的那个呢?这就是策略的作用。
损失函数是度量模型一次预测的好坏,即预测值与实际值之间的差别,而风险函数则是度量模型平均意义下预测的好坏。
损失函数f(X)与Y的非负实值函数,记作L(Y, f(X))。
损失函数越小,则模型越优秀。模型的输入输出均为随机变量,且服从联合分布P(X,Y),所以损失函数的期望为
该期望为理论上模型f(X)在联合分布P(X,Y)下的平均意义下的损失,称为风险函数或期望损失。我们选择模型希望风险函数越小越好。虽然我们假设数据服从联合分布,但我们不知晓联合分布函数,所以我们就要找一个近似值,即经验风险。
给定一个训练数据集,
模型f(X)关于数据集的平均损失成为经验风险或经验损失,
根据大数定律可知,当样本容量N趋于无穷大时,经验风险与期望风险的差距很小是必然的,所以可以使用经验风险估计期望风险。
如果样本容量不是足够大时,使用经验风险估计期望风险的效果不是很理想,此时就需要结构风险最小化。
结构风险最小化原则是因为样本容量小而导致过拟合现象,过拟合即是对训练样本预测效果好,但对未知样本预测效果差。
结构风险最小化等价于正则化,即在风险损失函数加上模型的复杂度的正则化项,定义为:
这是基于对过拟合现象的一个处置方法,即简化,其中包括选择较少参数的模型。此时,如果模型越复杂,则复杂度也就越大;相反也是如此。λ>=0是用来权衡经验风险和模型复杂度。
3、算法
从上面我们可以看出机器学习最后的问题都是求解经验风险或结构风险函数的最小值,也就是最优化问题,算法就是用于此处。
求解最优化方法有梯度、牛顿、拉格朗日乘法等。
参考:机器学习之基本定义