机器学习:P5-P8 误差的来源 and 梯度下降

本文主要是介绍机器学习:P5-P8 误差的来源 and 梯度下降，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

P5-P8 误差的来源 and 梯度下降

bias(偏差)+variance(方差)

真实的模型和训练的模型之间的误差是偏差和方差导致的

1.评估bias

\(假设x的平均值是\mu,方差\sigma^2\)

取N个样本点，计算平均值\(m，m\neq\mu\)

对很多组的m求期望等于\(\mu\)

m分布对于\(\mu\)的方差取决于样本点的个数,N越小越逆闪

2.评估variance

\(s^2=\frac{1}{N}\sum_n(x^n-m)^2\)

\(E[s^2]=\frac{N-1}{N}\sigma^2\neq\sigma^2\)

简单的模型偏差是比较大的，复杂的模型偏差小，复杂模型的域可能包含目标

简单的模型方差是比较小的，复杂的模型方差大，散布开

bias大重新考虑模型

variance大考虑数据集的调整

交叉验证

将训练集分为两部分，训练集和检验集，

1.用训练集训练模型，然后再验证集上比较，确定较好的模型

2.用全部的训练集训练确定的模型

3.用测试集测试

N-折交叉验证

将训练集分成N份

1.N-1Train，1val

2.用不同的model去训练选出最好的

3.用全部的Training set去训练选出的model

Gradient Descent

Tip 1： Tuning your learning rates

Adaptive Learning Rates

逐渐减小learning rate \(\eta^t=\eta/\sqrt{t+1}\)

不同的参数设计不同的rate

Adagrad

Learning rate= \(\eta^t\)除以过去所有微分的平均值

得\(w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}g^t\)

the best step is \(\frac{Fist derivative}{Second derivative}\)

Tip 2 : Stochastic Gradient Descent

每次只选一个example（部分data）来算Lost function ，G-D走了一步，S-G-D走很多很多步

但每次走的方向和全局梯度方向是不一致的

Tip 3 : Feature Scaling

让不同的参数的Scaling相同

R个example, 对每一个example的参数i取平均值\(\sigma_i\)

\(x_i^r<-\frac{x_i^r-m_i}{\sigma_i}\)

Gradient Descent 的 learning rate要小，否则就不能保证Lost function在减小。

数学证明的关键思路：函数在某一点的泰勒展开后，只有x无限趋于这个点时，才能用多项式插(一阶展开就是Gradient Descent的形式了)，但Learning rate 太大的时候，x距离这一点就不足够近了。

这篇关于机器学习:P5-P8 误差的来源 and 梯度下降的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

机器学习

机器学习:P5-P8 误差的来源 and 梯度下降

P5-P8 误差的来源 and 梯度下降

bias(偏差)+variance(方差)

交叉验证

N-折交叉验证

Gradient Descent

Tip 1： Tuning your learning rates

Adaptive Learning Rates

Adagrad

Tip 2 : Stochastic Gradient Descent

Tip 3 : Feature Scaling

Gradient Descent 的 learning rate要小，否则就不能保证Lost function在减小。

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯