机器学习界有一群炼丹师,他们每天的日常是:
拿来药材(数据),架起八卦炉(模型),点着六味真火(优化算法),就摇着蒲扇等着丹药出炉了。
不过,当过厨子的都知道,同样的食材,同样的菜谱,但火候不一样了,这出来的口味可是千差万别。火小了夹生,火大了易糊,火不匀则半生半糊。
机器学习也是一样,模型优化算法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的问题或者模型设计的问题,很可能就是优化算法的问题。
深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。
详见《一个框架看懂优化算法之异同 SGD/AdaGrad/Adam》
https://zhuanlan.zhihu.com/p/32230623
对于一般新手炼丹师,优化器直接使用Adam,并使用其默认参数就OK了。
一些爱写论文的炼丹师由于追求评估指标效果,可能会偏爱前期使用Adam优化器快速下降,后期使用SGD并精调优化器参数得到更好的结果。
此外目前也有一些前沿的优化算法,据称效果比Adam更好,例如LazyAdam, Look-ahead, RAdam, Ranger等.
优化器主要使用apply_gradients方法传入变量和对应梯度从而来对给定变量进行迭代,或者直接使用minimize方法对目标函数进行迭代优化。
当然,更常见的使用是在编译时将优化器传入keras的Model,通过调用model.fit实现对Loss的的迭代优化。
初始化优化器时会创建一个变量optimier.iterations用于记录迭代的次数。因此优化器和tf.Variable一样,一般需要在@tf.function外创建。
import tensorflow as tf import numpy as np #打印时间分割线 @tf.function def printbar(): ts = tf.timestamp() today_ts = ts%(24*60*60) hour = tf.cast(today_ts//3600+8,tf.int32)%tf.constant(24) minite = tf.cast((today_ts%3600)//60,tf.int32) second = tf.cast(tf.floor(today_ts%60),tf.int32) def timeformat(m): if tf.strings.length(tf.strings.format("{}",m))==1: return(tf.strings.format("0{}",m)) else: return(tf.strings.format("{}",m)) timestring = tf.strings.join([timeformat(hour),timeformat(minite), timeformat(second)],separator = ":") tf.print("=========="*8,end = "") tf.print(timestring)
# 求f(x) = a*x**2 + b*x + c的最小值 # 使用optimizer.apply_gradients x = tf.Variable(0.0, name='x', dtype=tf.float32) optimizer = tf.keras.optimizers.SGD(learning_rate=0.01) @tf.function def minimizef(): a = tf.constant(1.0) b = tf.constant(-2.0) c = tf.constant(1.0) while tf.constant(True): with tf.GradientTape() as tape: y = a*tf.pow(x, 2) + b*x + c dy_dx = tape.gradient(y, x) optimizer.apply_gradients(grads_and_vars=[(dy_dx, x)]) # 迭代终止条件 if tf.abs(dy_dx) < tf.constant(0.00001): break if tf.math.mod(optimizer.iterations, 100) == 0: printbar() tf.print('step=', optimizer.iterations) tf.print('') y = a*tf.pow(x, 2) + b*x + c return y tf.print('y=', minimizef()) tf.print('x=', x) """ ================================================================================22:37:24 step= 100 ================================================================================22:37:24 step= 200 ================================================================================22:37:24 step= 300 ================================================================================22:37:24 step= 400 ================================================================================22:37:24 step= 500 ================================================================================22:37:24 step= 600 y= 0 x= 0.999995172 """
# 求f(x) = a*x**2 + b*x + c的最小值 # 使用optimizer.minimize x = tf.Variable(0.0, name="x", dtype=tf.float32) optimizer = tf.keras.optimizers.SGD(learning_rate=0.01) def f(): a = tf.constant(1.0) b = tf.constant(-2.0) c = tf.constant(1.0) y = a*tf.pow(x,2) + b*x + c return(y) @tf.function def train(epoch = 1000): for _ in tf.range(epoch): optimizer.minimize(f,[x]) tf.print("epoch = ",optimizer.iterations) return(f()) train(1000) tf.print("y = ", f()) tf.print("x = ", x) """ epoch = 1000 y = 0 x = 0.999998569 """
# 求f(x) = a*x**2 + b*x + c的最小值 # 使用model.fit tf.keras.backend.clear_session() class FakeModel(tf.keras.models.Model): def __init__(self, a, b, c): super().__init__() self.a = a self.b = b self.c = c def build(self): self.x = tf.Variable(0.0, name='x') self.built = True def call(self, features): y = self.a * (self.x)**2 + self.b * (self.x) + self.c return tf.ones_like(features) * y def myloss(y_true, y_pred): return tf.reduce_mean(y_pred) model = FakeModel(tf.constant(1.0), tf.constant(-2.0), tf.constant(1.0)) model.build() model.summary() model.compile(optimizer=tf.keras.optimizers.SGD(learning_rate=0.01), loss=myloss) # 1*0**2 -2*0 + 1 = 1 history = model.fit(tf.zeros((100, 2)), tf.ones(100), batch_size=1, epochs=10) # 迭代1000次 """ Model: "fake_model" _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= Total params: 1 Trainable params: 1 Non-trainable params: 0 _________________________________________________________________ Epoch 1/10 100/100 [==============================] - 0s 266us/step - loss: 0.2481 Epoch 2/10 100/100 [==============================] - 0s 207us/step - loss: 0.0044 Epoch 3/10 100/100 [==============================] - 0s 223us/step - loss: 7.6740e-05 Epoch 4/10 100/100 [==============================] - 0s 310us/step - loss: 1.3500e-06 Epoch 5/10 100/100 [==============================] - 0s 401us/step - loss: 1.8477e-08 Epoch 6/10 100/100 [==============================] - 0s 271us/step - loss: 0.0000e+00 Epoch 7/10 100/100 [==============================] - 0s 277us/step - loss: 0.0000e+00 Epoch 8/10 100/100 [==============================] - 0s 820us/step - loss: 0.0000e+00 Epoch 9/10 100/100 [==============================] - 0s 449us/step - loss: 0.0000e+00 Epoch 10/10 100/100 [==============================] - 0s 531us/step - loss: 0.0000e+00 """
tf.print('x=', model.x) tf.print('y=', model(tf.constant(0.0))) # 1 * 1**2 - 2*1 + 1 = 0,注意变量是参数是x """ x= 0.99999851 y= 0 """
深度学习优化算法大概经历了 SGD -> SGDM -> NAG ->Adagrad -> Adadelta(RMSprop) -> Adam -> Nadam 这样的发展历程。
在keras.optimizers子模块中,它们基本上都有对应的类的实现。
- SGD, 默认参数为纯SGD, 设置momentum参数不为0实际上变成SGDM, 考虑了一阶动量, 设置 nesterov为True后变成NAG,即 Nesterov Acceleration Gradient,在计算梯度时计算的是向前走一步所在位置的梯度。
- Adagrad, 考虑了二阶动量,对于不同的参数有不同的学习率,即自适应学习率。缺点是学习率单调下降,可能后期学习速率过慢乃至提前停止学习。
- RMSprop, 考虑了二阶动量,对于不同的参数有不同的学习率,即自适应学习率,对Adagrad进行了优化,通过指数平滑只考虑一定窗口内的二阶动量。
- Adadelta, 考虑了二阶动量,与RMSprop类似,但是更加复杂一些,自适应性更强。
- Adam, 同时考虑了一阶动量和二阶动量,可以看成RMSprop上进一步考虑了Momentum。
- Nadam, 在Adam基础上进一步考虑了 Nesterov Acceleration。