最终目的仍是减少振荡方向(b)的更新幅度,提高前进方向(ω)的更新幅度
引入Sdω和Sdb,如公式表达,由于dω<db,求其均方根作为分母,实现ω的更新幅度大,而b的更新幅度小
注意
1. 使用中为了避免出现√Sdω=0导致除数为0的情况出现,应令√(Sdω+ε) (吴恩达视频中建议ε=1e-8)
2. 与动量梯度下降法一样,需要对S进行修正:S = S/(1-βt)