AI多种并行算法
并行模型
数据并行
数据并行化式的分布式训练,在每个工作节点上,存储一个模型的备份,在各台机器上处理数据集的不同部分。数据并行化式训练方法,需要组合各个工作节点的结果,在节点之间同步模型参数。各种方法之间的主要区别在于:
参数平均 model averaging
参数平均是最简单的一种数据并行化。若采用参数平均法,训练的过程如下所示:
上述第二步到第四步的过程如下图所示。在图中,W表示神经网络模型的参数(权重值和偏置值)。下标表示参数的更新版本,需要在各个工作节点加以区分。
参数平均法在数学意义上,等同于用单个机器进行训练;每个工作节点处理的数据量是相等的。(实际上如果采用momentum等技术,不是严格相等的)
假设该集群有n个工作节点,每个节点处理m个样本,总共是对nxm个样本求均值。如果在单台机器上处理所有nxm个样本,学习率设置为α,权重更新的方程为:
假设把样本分配到n个工作节点,每个节点在m个样本上进行学习(节点1处理样本1,……,m,节点2处理样本m+1,……,2m,以此类推),得到:
参数平均法听上去非常简单,但事实上并没有看上去这么容易。
首先,应该如何求平均值?简单将每轮迭代之后的参数进行平均。一旦这样实现了,会发现此方法在计算之外的额外开销非常巨大;网络通信和同步的开销许就能抵消额外机器带来的效率收益。因此,参数平均法通常有一个大于1的平均周期averaging period(就每个节点的minibatch而言)。如果求均值周期太长,每个节点得到的局部参数更多样化,求均值之后的模型效果非常差。想法是N个局部最小值的均值并不保证就是局部最小:
什么样的平均的周期算是过高呢?这个问题还没有结论性的回答,和其它超参数搅和在一起之后变得更为复杂,比如学习率、minibatch的大小,和工作节点的数量。有些初步的研究结论,建议平均的周期为每10~20个minibatch计算一次(每个工作节点),能够取得比较好的效果。随着平均的周期延长,模型的准确率则随之下降。
另一类额外的复杂度则是与优化算法相关,比如adagrad,momentum和RMSProp。这些优化方法,在神经网络的训练过程中,能够显著提升收敛的特性。这些updater都有中间状态(通常每个模型参数有1或2个状态值)—— 需要对这些状态值求均值吗?对每个节点的中间状态求均值可以加快收敛的速度,牺牲的代价则是两倍(或者多倍)增加网络的传输数据量。有些研究在参数服务器的层面应用类似的“updater”机制,而不仅仅在每个工作节点。
参考链接:
https://blog.csdn.net/xbinworld/article/details/74781605