Effective Approaches to Attention-based Neural Machine Translation 2015
提出了 global attention和local attention用于nmt。 其中global attention类似soft attention,而local attention是结合了soft attention和hard attention的变形。
此时nmt已经开始使用了,但是没有合适的attentin结构本文就提出了global 和 local attention结构。
模型选用的RNN单元是LSTM,且用的是多层LSTM结构。
在预测阶段,输入LSMT最后一层输出的和同时用attention机制计算出的,得到一个注意力隐藏层
通过一个softmax层得到该词被翻译成某个词的概率。
本文提出了global和local两种模型,最主要就是计算不同。在预测时,global是考虑target hidden state 与全局source items 的alignment weights。对全局source items和对应的alignment Weights求一个weighted average作为
而local根据target预测其在source items位置,在窗口内的source hiddent states才参与attention和weighted average计算。
如Figure2所示。计算时需要考虑encoder的全部hidden state。这里的是变长的,因为source target是变长的。
score的计算方法有content based。这三个方法本质是一样的。
以及location based,即attention只与target hidden state有关。
global attention需要考虑之前所有的source hidden state,计算耗时很大。对于长文本(比如文章)这是不能接受的。因此提出了local attention。 对每一个target item,模型先预测一个,给一个窗口参数D,context vector 就是这个区间的source hidden state 的weighted average。注意这里的 attention weight 是定长的,因为D确定了。
这里的计算方法也提出了2种。
和都是模型参数,S是source item length。为了让对齐的值更靠近,这里用均值在附近的高斯分布。
(经验值),是一个实数,s是一个在窗口内的整数。
尽管考虑了attention,但是每次的attention