实体提取和关系提取都可以通过联合执行,使得每个任务都能纠正彼此的错误。 现有的大多数联合方法都是单独提取实体和关系,通过参数共享实现联合学习,但这种方式会导致输出实体和关系之间的信息不能被充分利⽤。在本文中,作者通过设计⼀种图方案将联合任务转换为有向图,并提出了⼀种基于转换的方法来生成有向图,通过联合解码来实现联合学习。 这种方法不仅可以对实体和关系之间的潜在依赖关系建模,还可以对关系之间的潜在依赖关系建模。
关系抽取任务传统上作为两个独立子任务的管道来解决,即实体识别和关系提取。这种分离的方法忽略了这两个子任务之间的相关性。 实体和关系的联合提取可以整合实体和关系的信息,并在此任务上取得了较好的效果。 联合模型目前前已经采用了两种方法——统计模型和神经网络模型进行了研究 ,其中统计模型的性能严重依赖于复杂的特征工程,难以利用全局特征。
相比之下,神经⽹络模型的效果更好。然而,大多数现有的神经模型分开提取实体和关系,仅通过参数共享实现联合学习,而不是联合解码。由于没有使用显式特征来建立output-output 依赖关系,导致无法充分利用输出实体和关系之间的信息。还有⼀种新颖的标注方案是将联合提取任务转化为标注问题。在他们的联合模型中,实体和关系的信息被集成到⼀个统⼀的标记方案中,并且可以被充分利用。但是,由于转换为标记任务,该方法仅间接捕获输出的结构对应关系,并且⽆法识别重叠关系。
为此,作者通过设计⼀种图⽅案将联合任务转换为有向图,使⽤基于转换的解析框架解决。这种方法不仅可以对实体和关系之间的底层依赖关系建模,还可以对关系之间的底层依赖关系建模。本文的主要贡献总结如下:
Zheng et al.将联合抽取任务作为序列标签问题,提出了⼀种新颖的标签方案。图 2 是标记方案的⼀个示例。标签“O”意味着对应的词独⽴于提取的实体和关系。除“O”外,其他标签由三部分组成:词在实体中的位置、关系类型和关系角色。它使⽤“BIES”(Begin、Inside、End、Single)符号来表示⼀个词在实体中的位置信息。关系角色由数字“1”和“2”表示,其中“1”表示该词属于关系中的第⼀个实体,“2”表示该词属于第⼆个实体,如图2所示。基于此标记方案,Zheng et al. 为序列标记问题开发了⼀个具有偏置损失函数的端到端模型。但是,该方法无法识别重叠关系。例如,图 1 中的句子包含三个关系,其中每个实体与其他实体有两个关系,但是在此标记方案下只能提取⼀种关系。
作者将实体及其关系转换为有向图,而不是标签序列。 图中的节点对应于输⼊句子中的单词。 有向弧大致分为:1)实体弧,表示实体的内部结构; 2)关系弧,表示实体之间关系。其中head node表示关系的第⼀个元素,modify node表示关系的第⼆个元素。 为了处理重叠关系,有向图中的节点可以有多个头,这与传统的成分解析或依赖解析图不同。
使用⼀个元组 (σ, δ, e, β, R, E) 来表示每个状态,其中σ 是已处理实体的堆栈,δ 是持有从 σ 中弹出但之后会被推⼊的实体,e 是存储部分实体块的堆栈,β 是保存未处理单词的缓冲区。 R 是⼀组关系弧。 E是⼀组实体弧。使用索引 i 分别表示词 wi 和实体 ei。 A 用于存储动作历史记录。
图3 给出了图 1 语句的状态转换顺序。初始状态为 ([ ], [ ], [ ], [1, · · · , n], ∅, ∅), 而终止状态为 ( σ, δ, [ ], [ ], R, E)。其中的转换动作是通过转换规则和在解码期间神经网络分类器来生成的。感兴趣的读者可以阅读原文,在此不多作阐述。
如图 3 所示,时间 t 时的模型状态表示,记为 mt,定义为:
其中W是学习的参数矩阵,st是σ的表示,bt是β的表示,pt是δ的表示,et是e的表示,at是A的表示,d是偏置项 .
模型状态 mt 用于计算时间 t 时的候选动作的概率为:
由此可以得出
其中
E
∗
E^*
E∗是输出实体集合,
R
∗
R^*
R∗是关系集合,实体和关系的提取合并在⼀个基于转换的系统中。
为了简化组合函数的参数,作者选择⼀次将⼀对组合在⼀起,以在模型中“简化”的顺序建⽴更复杂的结构。 图 4 显示了更新实体“LosAngeles”时的示例,其中⾸先⽣成 Live In 关系。
作者使用的NYT数据集包含 353k 远程监督形成的个三元组,测试集包含手动标记的3, 880条数据。判断标准是,当⼀个三元组的关系类型和两个对应实体都正确时结果才是正确的。
作者将此方法与几种最先进的提取方法进行比较,这些方法可以分为以下几类:pipeline方法、联合提取方法和端到端方法。
pipeline方法包括有DS- logistic,LINE,FCM;联合抽取的方法有DS-Joint,MultiR,Co- Type ;端到端模型包括LSTM-LSTM-Bias。
结果:如表4所示,作者的方法在所有模型的基线上都取得了显着的提升。 它比最好的联合提取方法 提高了4.6 点,比最好的端到端序列标记方法提高了 1.4 点,⾜以证明此模型在建模以及预测实体和关系方⾯的有效性。多任务学习的联合方法优于pipeline方法,end to end 方法优于⼤多数联合⽅法。 这⼀结果表明联合解码的重要性,它能更好地利用实体和关系之间以及关系与关系之间依赖关系。
消融实验:为了论证Bi-LSTM 表示和联合提取的效果,作者进行了⼀组消融实验。 为研究Bi-LSTM的影响,作者直接将输⼊句子的标记嵌⼊到上述状态表示结构中。 为了研究联合提取的效果,作者将⽣成的关系弧,仅通过将其原始嵌⼊与关系嵌⼊连接来更新每个实体嵌⼊,而忽略相应的head或modifier实体。 如表 5 所示,这些策略上的F1⼤幅下降。这表明捕获更丰富的上下⽂信息,以及实体和关系的embedding嵌⼊非常重要。
此外,这种方法还可以获取远距离实体之间的关系,如表 6 所示。同时,与 LSTM-LSTM-Bias 方法不同,此⽅法可以识别重叠关系。表 6 中的 S2 显示了⼀个示例,由于其模型限制,LSTM-LSTM-Bias 方法⽆法识别该示例。而作者所述的转换系统能够处理多个头head或tail节点,使之适用于这种情况。
作者提出了⼀种基于转换的实体和关系联合提取方法。 与现有的神经网络方法相比,此方法不仅可以对实体和关系之间的潜在依赖关系建模,还可以对关系之间的潜在依赖关系建模。 实验表明,作者的模型在纽约时报 (NYT) 数据集上达到了目前最好的效果。
论文链接:https://www.aclweb.org/anthology/P17-1113.pdf
代码链接:https://github.com/hitwsl/joint-entity-relation