这是2019年发表在ACL的一篇文章,与前面所读的几篇RC、QA文章不同,这篇文章关注的是生成式的RC模型,并且引入多风格的答案生成。
以往的QA模型通常是抽取式的,即从passage中抽取出一段区间作为预测答案(span prediction),因此这篇文章希望设计出一种生成式的模型,并且希望通过单个模型生成不同风格的答案。这里的不同风格我的理解是传统QA基于span抽取的和语言模型进行生成的这两种风格,通过本文提供的例子可以直观感受一下
这里作者标注了Q&A和NLG,因此这应该就是本文所谈到的不同风格的答案。
本文的主要贡献有两个:
总体来说,这篇文章所提出的方法是很新颖的,但是也的确比较不好理解。
本文采用的是MS Masco数据集,所作的任务是:给定一个问题和多个段落,模型生成一段答案。训练数据是一个六元组: ( x q , { x p k } , s , y , a , r p k ) (x^{q},\{x^{p_{k}}\},s,y,a,r^{p_k}) (xq,{xpk},s,y,a,rpk): s s s表示答案风格,生成的答案风格控制; a ∈ { 0 , 1 } a \in \{0,1\} a∈{0,1}表示问题是否可回答; r p k ∈ { 0 , 1 } r^{p_{k}} \in \{0,1\} rpk∈{0,1}表示该段落是否对答案有贡献
模型主要分为四大部分:
作者管他们的模型叫Masque
这个部分有点类似QANet中encoder的结构,也是分为四个子模块:
词向量本文采用的是Glove+ELMo,其中ELMo代替了positional embedding的作用,然后作者又把这两种word embedding输入两层highway network中进行融合。
采用Transformer的encoder block,做multi-head self-attention,passage和question共享,分别得到 E p k ∈ R d × L E^{p_{k}}\in R^{d \times L} Epk∈Rd×L和 E q ∈ R d × J E^{q} \in R^{d \times J} Eq∈Rd×J
这一部分用于计算P2Q和Q2P的双向attention。首先计算similarity score,得到相似度矩阵
S
p
k
∈
R
L
×
J
S^{p_{k}} \in R^{L \times J}
Spk∈RL×J
S
l
j
p
k
=
w
α
T
[
E
l
p
k
;
E
j
q
;
E
l
p
k
∘
E
j
q
]
S^{p_{k}}_{lj} \ =\ w^{T}_{\alpha}[E^{p_{k}}_{l};E^{q}_{j};E^{p_{k}}_{l} \circ E^{q}_{j}]
Sljpk = wαT[Elpk;Ejq;Elpk∘Ejq]
接着分别对row和column做softmax得到attention weights
A
p
k
=
s
o
f
t
m
a
x
j
(
S
p
k
T
)
B
p
k
=
s
o
f
t
m
a
x
l
(
S
p
k
)
A^{p_{k}}\ =\ softmax_{j}({S^{p_{k}}}^{T}) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ B^{p_{k}}\ =\ softmax_{l}(S^{p_{k}})
Apk = softmaxj(SpkT) Bpk = softmaxl(Spk)
接下来作者借鉴DCN来计算Dual Attention:
G
q
→
p
k
=
[
E
p
k
;
A
ˉ
p
k
;
A
^
p
k
;
E
p
k
∘
A
ˉ
p
k
;
E
p
k
∘
A
^
p
k
]
G
p
→
q
=
[
E
q
;
B
ˉ
;
B
^
;
E
q
∘
B
ˉ
;
E
q
∘
B
^
]
G^{q \rightarrow p_{k}}\ =\ [E^{p_{k}};\bar{A}^{p_{k}};\hat{A}^{p_{k}};E^{p_{k}}\circ \bar{A}^{p_{k}};E^{p_{k}} \circ \hat{A}^{p_{k}}]\\ G^{p \rightarrow q}\ =\ [E^{q};\bar{B};\hat{B};E^{q}\circ \bar{B};E^{q} \circ \hat{B}]\\
Gq→pk = [Epk;Aˉpk;A^pk;Epk∘Aˉpk;Epk∘A^pk]Gp→q = [Eq;Bˉ;B^;Eq∘Bˉ;Eq∘B^]
我们分别解释公式中的这几个量:
这里依然是stack几层encoder block,passage堆叠5层,query堆叠2层,最终得到 M p k ∈ R L × d M^{p_{k}} \in R^{L \times d} Mpk∈RL×d和 M q ∈ R J × d M^{q} \in R^{J \times d} Mq∈RJ×d
passage ranker是用来评估每个段落的重要程度,在后面decoder部分会用到。作者取每个
M
p
k
M^{p_{k}}
Mpk的第一个token向量(也就是
M
1
p
k
∈
R
d
M_{1}^{p_k} \in R^{d}
M1pk∈Rd)来计算
β
p
k
=
σ
(
w
r
M
1
p
k
)
\beta^{p_k}\ =\ \sigma(w^{r}M_{1}^{p_{k}})
βpk = σ(wrM1pk)
使用sigmoid的原因是我们只需要0或1的输出来判断该段落是否有用。
这一层是用来判断该问题是否能够被回答,作者将每个段落的第一个token向量concat起来,乘一个向量,然后再用sigmoid激活:
P
(
a
)
=
s
i
g
m
o
i
d
(
w
c
[
M
1
p
1
;
M
1
p
2
;
…
;
M
1
p
k
]
)
P(a)\ =\ sigmoid(w^{c}[M^{p_{1}}_{1};M^{p_{2}}_{1};\dots;M^{p_{k}}_{1}])
P(a) = sigmoid(wc[M1p1;M1p2;…;M1pk])
decoder同样分为四个子模块:
与Encoder相同,但是ELMo采用单向,因为这一部分要做生成
与Transformer的Decoder Block结构相同,有一点变化是在Encoder-Decoder attention部分,我们要分别将answer与query和passage做self-attention,对于answer-passage attention,作者将encoder部分得到的 M p k M^{p_{k}} Mpk拼接起来得到 M p a l l = [ M p 1 ; M p 2 ; … ; M p k ] M^{p_{all}}=[M^{p_{1}};M^{p_{2}};\dots;M^{p_{k}}] Mpall=[Mp1;Mp2;…;Mpk]再去做attention。这一层得到的输出是一个生成的答案序列 [ s 1 , s 2 , … , s T ] [s_1,s_2,\dots,s_T] [s1,s2,…,sT]
这一部分就是overview里所说的允许模型从词库、问题和段落中复制来作为答案,而这一部分得到的输出也是passage、query和decoder自身三部分加权得到的结果。
首先作者对词库进行扩充,新词库包含词典中常见词、所有query中的词和所有passage中的词。令
P
v
(
y
t
)
P^{v}(y_{t})
Pv(yt)表示答案中第
t
t
t个单词的概率分布,计算公式为:
P
v
(
y
t
)
=
s
o
f
t
m
a
x
(
W
2
(
W
1
s
t
+
b
1
)
)
P^{v}(y_t)\ =\ softmax(W^2(W^1s_t+b^1))
Pv(yt) = softmax(W2(W1st+b1))
W
1
W^1
W1和
b
1
b^1
b1是可训练的参数,
W
2
∈
R
d
w
o
r
d
×
V
e
x
t
W^2 \in R^{d_{word} \times V_{ext}}
W2∈Rdword×Vext
作者认为传统的随机选取一个注意力头来复制分布效果并不好,本文选择再添加一层attention来进行copy distribution:
e
l
p
k
=
w
p
T
t
a
n
h
(
W
p
m
M
l
p
k
+
W
p
s
s
t
+
b
p
)
α
t
p
=
s
o
f
t
m
a
x
(
[
e
p
1
;
e
p
2
;
…
;
e
p
k
]
)
c
t
p
=
∑
l
α
t
l
p
M
l
p
a
l
l
e_{l}^{p_{k}}\ =\ {w^{p}}^{T}tanh(W^{pm}M^{p_{k}}_{l}+W^{ps}s_{t}+b^{p})\\ \alpha^{p}_{t}\ =\ softmax([e^{p_{1}};e^{p_{2}};\dots;e^{p_{k}}])\\ c_{t}^{p}\ =\ \sum_{l}\alpha_{tl}^{p}M_{l}^{p_{all}}
elpk = wpTtanh(WpmMlpk+Wpsst+bp)αtp = softmax([ep1;ep2;…;epk])ctp = l∑αtlpMlpall
同理得到query的attention weight和context vector
α
t
q
,
c
t
q
\alpha^{q}_{t},c^{q}_{t}
αtq,ctq,然后query和passage的copy distribution计算方式如下:
P
q
(
y
t
)
=
∑
j
:
x
j
q
=
y
t
α
t
j
q
P
p
(
y
t
)
=
∑
l
:
x
l
p
k
(
l
)
=
y
t
α
t
l
p
P^{q}(y_{t})\ =\ \sum_{j:x_{j}^{q}=y_{t}}\alpha^{q}_{tj}\\ P^{p}(y_{t})\ =\ \sum_{l:x_{l}^{p_k(l)}=y_{t}}\alpha^{p}_{tl}
Pq(yt) = j:xjq=yt∑αtjqPp(yt) = l:xlpk(l)=yt∑αtlp
最终的概率分布为三者的加权和:
P
(
y
t
)
=
λ
v
P
v
(
y
t
)
+
λ
q
P
q
(
y
t
)
+
λ
p
P
p
(
y
t
)
λ
v
,
λ
q
,
λ
p
=
s
o
f
t
m
a
x
(
W
m
[
s
t
;
c
t
q
;
c
t
p
]
+
b
m
)
P(y_t)\ =\ \lambda^{v}P^{v}(y_t)+\lambda^{q}P^{q}(y_t)+\lambda^{p}P^{p}(y_t)\\ \lambda^{v},\lambda^{q},\lambda^{p}\ =\ softmax(W^{m}[s_t;c^{q}_{t};c^{p}_{t}]+b_m)
P(yt) = λvPv(yt)+λqPq(yt)+λpPp(yt)λv,λq,λp = softmax(Wm[st;ctq;ctp]+bm)
之前我们计算了一个passage rank,这里我们要用它来过滤掉与答案按不相关的passage来防止copy distribution复制到这些不相关的passage。我们把
α
t
p
\alpha_t^{p}
αtp修改为以下形式:
α
t
l
p
=
α
t
l
p
β
l
p
k
∑
l
′
α
t
l
′
p
β
l
′
p
k
\alpha^{p}_{tl}\ =\ \frac{\alpha_{tl}^{p}\beta^{p_{k}}_{l}}{\sum_{l'}\alpha_{tl'}^{p}\beta^{p_{k}}_{l'}}
αtlp = ∑l′αtl′pβl′pkαtlpβlpk
最后还有一个损失函数的问题,模型的最终损失函数由三个部分组成
L
=
L
d
e
c
+
γ
r
a
n
k
L
r
a
n
k
+
γ
a
n
s
L
a
n
s
L\ =\ L_{dec}+\gamma_{rank}L_{rank}+\gamma_{ans}L_{ans}
L = Ldec+γrankLrank+γansLans
本文实验部分倒是没有什么特别要说的,因为这篇文章的核心就是对模型的创新,简单来看一下实验数据,首先是在MS Marco数据集上的效果
然后是在NarrativeQA数据集上的效果
消融实验证明了本文所提出的多风格学习还是很有效的