一、动量(momentum)
可以给优化器加上一个动量,可以有效缓解局部最优问题。
原理上就是让优化过程从
W = W - lr * dW
变成
V = momentum * V - lr * dW
W = W + V
使用示例:
from torch import optim ... model = Model() optimizer = optim.SGD(model.parameters(), lr=0.005, momentum=0.9) ...
二、优化器动态学习率设置(scheduler)
可以让学习率随着epoch的增大而减小,此处以ExponentialLR为例
使用示例:
from torch.optim.lr_scheduler import ExponentialLR ... optimizer = optim.SGD(catp.parameters(), lr=0.005, momentum=0.9) scheduler = ExponentialLR(optimizer, gamma=0.99) for epoch in range(epochs): for i, batch_data in enumerate(dataloader): loss = ... optimizer.zero_grad() loss.backward() optimizer.step() scheduler.step() ...