论文提出NASH方法来进行神经网络结构搜索,核心思想与之前的EAS方法类似,使用网络态射来生成一系列效果一致且继承权重的复杂子网,本文的网络态射更丰富,而且仅需要简单的爬山算法辅助就可以完成搜索,耗时0.5GPU day
来源:晓飞的算法工程笔记 公众号
论文: Simple And Efficient Architecture Search for Convolutional Neural Networks
论文目标在于大量减少网络搜索的计算量并保持结果的高性能,核心思想与EAS算法类似,主要贡献如下:
为上的一系列网络,网络态射(network morphism)为映射,从参数为的网络转换为参数为的网络,并且满足公式1,即对于相同的输入,网络的输出不变。
下面给出几种标准网络结构的网络态射例子:
将进行公式2的替换,,为了满足公式1,设定和,可用于添加全连接层。
另外一种复杂点的策略如公式3,,设定和,可用于表达BN层,其中和表示统计结构,和为可学习的和。
假设可由任何函数表示,即
则可以将,配合任意函数根据公式4替换为,,设定。这个态射可以表示为两种结构:
任何幂等的函数都可以通过公式5进行替换,初始化,公式5在无权重的幂等函数上也成立,比如ReLU。
任何层都可以配合任意函数进行公式6的替换,初始化,可用于结合任意函数,特别是非线性函数,也可以用于加入additive型的skip connection。
此外,不同的网络态射组合也可以产生新的态射,比如可以通过公式2、3和5在ReLU层后面插入"Conv-BatchNorm-Relu"的网络结构。
NASH方法基于爬山算法,先从小网络开始,对其进行网络态射生成更大的子网络,由于公式1的约束,子网的性能与原网络是一样的,后续子网进行简单的训练看是否有更好的性能,最后选择性能优异的子网进行重复的操作。
图1可视化了NASH方法的一个step,算法1的ApplyNetMorph(model, n)包含n个网络态射操作,每个为以下方法的随机一种:
由于使用了网络态射,子网继承了原网络的权重且性能一致,NASH方法优势在于能够很快的评估子网的性能,论文使用了简单的爬山算法,当然也可以选择其它的优化策略。
论文提出NASH方法来进行神经网络结构搜索,核心思想与之前的EAS方法类似,使用网络态射来生成一系列效果一致且继承权重的复杂子网,本文的网络态射更丰富,而且仅需要简单的爬山算法辅助就可以完成搜索,耗时0.5GPU day
如果本文对你有帮助,麻烦点个赞或在看呗~
更多内容请关注 微信公众号【晓飞的算法工程笔记】