作者:刘锁阵
单位:燕山大学
论文地址:https://www.aclweb.org/anthology/P18-4009.pdf
发布时间:2018
作者提出了一个事件检测框架来检测事件并从文档级别的金融新闻中提取事件信息。
图 3 描述了产生带标签数据的过程。在本节,作者首先引入使用的数据源。然后描述自动标注数据的方法。最后将介绍一些能够被用于提高带标签数据的质量的技巧。
数据源:两种类型的数据源:结构化的事件数据和非结构化的文本数据(包含事件信息)
数据产生的方法:标注数据由两部分组成,即通过标注事件触发词和事件参数来产生句子级别的数据;通过在文档级别的公告中标注事件来产生文档级别的数据。现在问题是:如何找到事件触发词?对于金融事件的每个类型,可以构造一个事件触发器的字典。例如在Equity Freeze事件中的frozen,在Equity Pledge中的pledged。因此,我们可以自动识别事件并且标注事件触发词和事件参数。然后,提到的事件会被标记为positive。而其余的句子被标记为negative。
技巧:在数据标注中存在的问题:财务公告与事件知识库的对应关系;事件参数的歧义和缩写。可以通过降低搜索空间、正则化表达式、设置规则来解决这些问题。
图4是EE系统的整个框架,主要包含两个部分:
SEE其实就是一个序列标注任务。作者将句子表示为BIO格式:如果当前token是事件参数的开始,将将该字符标记为 B-label ;如果当前token在事件参数中间,就标记为I-label;其它字符标记为O-label。
SEE特定模型的实现在图4的左边。它由Bi-LSTM网络和CRF层组成。在句子中每个中文字符被表示为一个向量,该向量作为Bi-LSTM的输入;Bi-LSTM层的输出将每个字符映射到分数上。CRF层被用于解决标签偏差问题。
DEE由两部分组成:
关键事件检测:事件检测的输入由两部分组成:一个是事件参数、来自于SEE输出(蓝的)的事件触发词的表示;一个是当前句子(红的)的向量表示。两个部分连接起来作为CNN的输入特征。然后当前的句子被分类为两类:是关键事件 或者 不是关键事件。
参数补全策略:在通过DEE得到包含大多数事件参数的关键事件,并且通过SEE得到了文档中每个句子的事件提取结果后。为了获取完整事件信息,作者使用参数补全策略能自动填充来自周围的句子的消失的事件参数。正如图 4 而言,一个集成的 Pledge 事件包含事件 S n S_n Sn 中的事件参数和来自于 S n + 1 S_{n+1} Sn+1 的填充的事件参数l2 months。
作者提出了DCFEE框架,该框架可以基于自动标注的数据来从中文金融公告中提取文档级别的事件。实验结果表明了该系统的有效性。作者还将该系统上线,使得使用者可以通过it9从金融公告中快速得到事件信息。