BN层存在的问题:
BN层的模型效果取决于Batch_size大小,那么我的实验分别在batch_size=4和8的情况下运行的,这些batch_size都无法让BN层真正起到作用,甚至负作用,我个人感觉4的效果比8好这就是个运气问题,BN层中的running_mean,running_var都是最后一次更新后的值,那么每一个mini_batch的影响都不一样,4和8无法让这些mean和var接近真实数据集的均值方差。若我不使用BN层采用FrozenBN层(即不去更新BN层中的四个参数),我的数据集是医学数据集,直接用自然数据集去BN医学数据集显然是不合理的。
那么如果我把batch_size调大呢?这显然也是不行的,因为检测网络,语义分割等等,为保证精度,都是不会把图像进行放缩到224大小的。同时网络都是非常大的,我自己的电脑显存是11G,只能运行batch_size=4,如果要运行batch_size=32那成本太高。所以为了解决上述问题。Kaiming He在2018年ECCV上发表了《Group Normalization》
GN层:
GN层不在依赖 batch_size大小了,其将Channel分为多个组,在每一个组中求均值方差。这里附上代码
import torch import torch.nn as nn def group_norm(x:torch.Tensor, num_groups: int, num_channels: int, eps: float = 1e-5, gamma: float = 1.0, beta: float = 0): channels_per_group = num_channels//num_groups new_tensor = [] for t in x.split(channels_per_group, dim=1): var_mean = torch.var_mean(t, dim=[1, 2, 3], unbiased=False) var = var_mean[0] mean = var_mean[1] mean = mean.unsqueeze(1).unsqueeze(2).unsqueeze(3).expand_as(t) #t = (t-mean[:, None, None, None])/torch.sqrt(var[:, None, None, None]+eps) t = (t - mean) / torch.sqrt(var[:, None, None, None] + eps) t = t*gamma+beta new_tensor.append(t) new_tensor = torch.cat(new_tensor, axis=1) return new_tensor num_groups = 2 num_channels = 4 eps = 1e-5 img = torch.randn(2, num_channels, 2, 2) gn = nn.GroupNorm(num_groups=num_groups, num_channels=num_channels, eps=eps) r1 = gn(img) print(r1) r2 = group_norm(img, num_groups=num_groups, num_channels=num_channels, eps=eps) print(r2)
其跟BN有点类似,但是求均值方差的方法跟以前不一样了。这里针对每一个mini_batch执行同样的处理,先将Channel分组,代码中是2,即分为两组,每一组求得该mini_batch上该Group的图像均值方差
然后在进行减均值除方差操作。同BN一样,网络也需要去学习一个gamma,beta参数。最后在进行加权。这里相比于BN,少了一个running_mean和running_std参数。言外之意网络只需要去学习gamma和beta参数。同时训练和测试都采用同样的模式,而不用model.eval().