一、难点一
右侧的公式是从底往上看
两个mean-pooling很简单,假设形成64维的向量 Ec1 Ei1,相乘得到Ef1,也是64维向量,这里的vanilla-attention(推荐搜索的冷启动问题_1066196847的博客-CSDN博客)
vanilla-attention的重点是,Query由decoder输出,也就相当于这里的Ef1,K V由encoder输入,从Ec2 Ei2公式中看都是C或者都是I,用C来举例,那么就都是content sequence的每个item,先和Ef1来计算attention-score再作用到自身(相乘)得到加权向量(多半也是64维向量)
最后Ec2 Ei2相乘,再和Ef1相加,得到输出