用于ALSC任务的依赖树主要有三类:1. 使用依赖树的拓扑结构 2. 基于树节点间的距离,计算在树中的两个token的最短距离 3. 同时使用拓扑结构和距离
除了依赖树,还发现BERT等模型里面隐含了语法信息,预训练模型隐含了某些依赖树结构
由此引发两个问题:
PTMs模型还是基于语法树的模型在ALSC任务中更优呢?
PTMs在微调阶段,会将隐含的树结构调整为适应ALSC任务的树结构吗?
实验表明,由FT-PTMs诱导的树可以帮助基于树的ALSC模型在微调前获得比同类模型更好的性能;此外,由ALSC优化的RoBERTa生成树的模型甚至可以胜过依赖解析器生成的树。
本文贡献点:
采用扰动掩码方法去生成树结构
f ( x i , x j ) = ∥ H θ ( x \ { x i } ) i − H θ ( x \ { x i , x j } ) i ∥ 2 f\left(x_{i}, x_{j}\right)=\left\|H_{\theta}\left(\mathbf{x} \backslash\left\{x_{i}\right\}\right)_{i}-H_{\theta}\left(\mathbf{x} \backslash\left\{x_{i}, x_{j}\right\}\right)_{i}\right\|_{2} f(xi,xj)=∥∥Hθ(x\{xi})i−Hθ(x\{xi,xj})i∥∥2
首先将 t o k e n {token } token x i x_i xi用[MASK]代替,然后输出 H θ ( x \ { x i } ) i H_{\theta}\left(\mathbf{x} \backslash\left\{x_{i}\right\}\right)_{i} Hθ(x\{xi})i;然后再MASK掉 x j x_j xj计算他们之间的欧几里得距离,表示两个token之间的距离。
将每个词作为节点,单词之间的依赖关系作为边,然后使用GCN网络对这个图进行建模。
尝试帮助方面词发现它的上下文词。首先根据依赖树之间的最短路径,计算邻近值;然后给每个词分配邻近值。
将依赖树转换为面向方面词的树,使用方面词作为根节点,其他词与方面词直接相连。方面词与其他词之间的关系,要么基于句法标记,要么基于依赖树中的距离。
RGAT将保留与方面词距离为1的句法标签,分配给距离更远的词以虚拟标签。.
为了实现FT-PTMs诱导树,本文在ALSC数据中微调BERT和RoBERTa。
Perturbed Masking method
使用Chu–Liu/Edmonds’
方法用于生成树编码;本文,先在模型的每一层上生成依赖树,实验发现在第11层生成依赖树最佳。
A s D ( S i ) = ∑ w w i ∑ C ′ = S i ∩ C C i ′ dist ( C i ′ , w i ) ∣ w ∣ ∣ C ′ ∣ ∣ ∣ 表 示 集 合 中 元 素 个 数 d i s t ( x i , y i ) 表 示 x i 和 x j 在 图 中 的 相 对 距 离 A s D\left(S_{i}\right)=\frac{\sum_{w}^{w_{i}} \sum_{C^{\prime}=S_{i} \cap C}^{C_{i}^{\prime}} \operatorname{dist}\left(C_{i}^{\prime}, w_{i}\right)}{|w|\left|C^{\prime}\right|} \\ | |表示集合中元素个数 \\ dist(x_i,y_i)表示x_i和x_j在图中的相对距离 AsD(Si)=∣w∣∣C′∣∑wwi∑C′=Si∩CCi′dist(Ci′,wi)∣∣表示集合中元素个数dist(xi,yi)表示xi和xj在图中的相对距离