神经网络与深度学习(更新至第6讲 循环神经网络)_哔哩哔哩_bilibili
注解:
1.在假定的空间中建立一个最优的模型,利用这个模型建立x和y之间的关系。
2.需要有一个准则来判断学习到的模型是好是坏。
注解:
1.左边是线性模型,右边是非线性模型。
注解:
1.函数的预测值f(x,θ*)与真实值y的差异应该是尽可能的小,很小很小,小到一个很小的数。
2.这个损失函数是在一个单点上的平方,对于整个模型的话,是希望在所有的样本点上平方的累加和最小。
注解:
1.真实的损失函数的期望不知道,但是可以通过采集很多很多的样本去近似计算这个期望值。
注解:
1.根据大数定律,当N趋近于无穷大的时候,经验风险就逼近于期望风险。
2.经验风险,就是对采样到的有限个样本点上的损失取平均。
3.经验风险中的字母D代表:Distribution.
注解:
1.凸函数等价于:二阶导>0(网友:二阶导>0等价于凹函数?)。
2.凸函数极值点是唯一的,所以一阶导求出来的x值,即极值点一定是全局最优的。
3.在机器学习中,如何使用一个比较高级的算法解决非凸优化也是一个重要的研究的问题。
注解:
1.梯度下降法可以类比于适一阶导等于0的方法。
2.由梯度的定义知道,如果沿着梯度方向走,值会变大,朝梯度的反方向走,值会变小。
3.梯度下降法中,如果走的步长不是太大,函数一定会收敛到极值点。
5.θ是最优化要去求的,是一个(或者说是一组,比如说线性回归的斜率和截距参数)可学习的参数。
4.学习率在机器学习中是一个非常重要的超参数,也叫做步长,不能像θ一样通过最优化的方法去学习,步长不是神经网络可以习得的,是需要人为的进行选择的一个参数,所以叫做超参数。超参数就是需要人为进行选择的参数。