1.测试了原来的函数模型是否使得梯度无法回传
2.重新使用原来框架建立了关于一个简单函数y=-2x+1的模型,并进行拟合
1.初步认为梯度是没有问题的(理由:使用同一组数据进行操作,发现在用optimizer更新完网络参数之后,输入同一组数据返回的结果不一样(神经网络的输出不一样),这说明网络是在更新的,更换学习率之后更加明显在更新)。
2.如果使用的数据集中x的范围是1到100(比较小),那么网络训练可以顺利进行,并且不管做不做normalization都可以顺利进行。由于我们用的TDTR也是单调递减函数,这个一次函数也是单调递减函数,那么normalization之后得到的结果也是一样的,如果没有出现其他问题,那么我们的函数也应当训练成功。
1.不是很确定如果梯度无法回传,网络是否会更新?我认为是不会更新的,因此我们的梯度应该是可以回传的
2.数据集的问题:思考一下如何调整梯度的问题,对于y=-2x+1来说,是loss太大的问题,导致出现inf和nan。那对于自己的函数又是什么情况,需要思考