[0003] 本发明主要针对于事件触发词和事件论元的依赖路径过长和模型输出特征缺乏实体关系的问题提出的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法。
[0004] 基于实体关系和依存Tree-LSTM的联合事件抽取的方法,按照如下步骤进行:
[0005] 步骤1、对原始文本以及文本标注信息进行编码;
[0006] 步骤2、将步骤1的结果输入双向LSTM;获取具有时序的前向隐含状态向量 和后向隐含状态向量
[0007] 步骤3、首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构,然后将步骤1的编码结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量和t个时刻的隐含状态向量
[0008] 步骤4、将实体关系向量Rk编码连接树根节点隐含状态向量 获取保存实体关系句子向量 同时连接双向LSTM t时刻的前向隐含状态向量 和后向隐含状态向量 以及依存Tree-LSTM t时刻的隐含状态向量 求得新隐含状态向量
从而既保存子结点的信息也获取具有一定时序的局部下上文信息;
[0009] 步骤5、连接步骤4中t时刻隐含状态向量Ht与句子向量F,进行触发词识别和分类;
[0010] 步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量Ht、第i个事件论元候选词(第i个实体提及)隐含状态向量 包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量Rk中的实体关系论元角色 连接,进行事件论元的识别和分类;
[0011] 进一步的,步骤1具体实现如下:
[0012] 1-1从源文件中获取未处理原始文本以及文本标注信息,标注信息包含实体提及、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色,其中,一共7种实体类型,39种事件触发词类型、20种实体关系类型和16种实体关系论元角色;然后利用Stanford CoreNLP对原始文本进行分句、分词;获取词性和句子的依存树形结构,其中,每个词作为树性结构的一个结点;并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表,其中每一种向量表都有类型“其他”对应的初始化向量;实体提及可能由多个词构成;为了方便表示实体提及,我们用每个实体提及的head(多为实体提及的最后一个单词)表示每个实体提及以及head在句子中出现的下标表示每个实体提及的下标;因此,每个实体提及的下标用符号表示:head1,head2,head3,...,headk-1,headk(其中k是实体提及的个数,k有可能为零);为此,我们用 表示句子中出现的实体提及;随机初始化所有向
量表中的每个向量,在训练的时候更新这些向量;
[0013] 1-2查询预训练的glove词向量矩阵,获取句子中每个词的词向量wi,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量we;
[0014] 获取每个词表示xi={wi,wpos,we},因此句子向量矩阵表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度;
[0015] 进一步的,步骤2具体实现如下:
[0016] 将句子的向量矩阵W={x1,x2,...,xn-1,xn}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵 和后向隐含状态矩阵 其中和 分别表示t时刻的前向隐含状态向量和后向隐含状态,t∈[1,n],双向LSTM是一种时间序列敏感的模型,因此, 和 分别保存具有一定时序信息的上文和下文信息;
[0017] 进一步的,步骤3具体实现如下:
[0018] 通过Stanford CoreNLP工具将每个句子解析成树形结构,句中每个单词构成树形结构的结点,与该单词有依存关系的则以该结点的父节点或者子结点出现;将W={x1,x2,...,xn-1,xn}输入到该树形结构为基础构建的依存Tree-LSTM,获取该句子解析成的树形结构中的每个结点的隐含状态向量 和根节点的隐含状态向量 因此句子的依存Tree-LSTM输出的句子的隐含状态矩阵 其中t,root∈[1,n],n是句子的长度;
[0019] 进一步的,步骤4具体实现如下:
[0020] 4-1.通过查询步骤1随机初始化的实体关系表,获取句子中的实体关系向量Rk,表k示第k种实体关系;如果不存在实体关系,R指向“其他”的实体关系向量,并在训练过程中调整向量;
[0021] 4-2依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到;所以语义依存树结构中的根节点包含全句信息,为了使句子中包含实体关系信息的句子级别的向量,将步骤4生成的根节点隐含向量 和实体关系向量Rk连接,获取包含实体关系信息的句子向量
[0022] 4-3将步骤2和步骤3每个时刻的隐含向量组合,同时为降低隐含向量的维度,采用求平均的方式获取t时刻的隐含状态向量: 而整个句子的隐含状态矩阵为H={H1,H2,···,Hn-1,Hn},其中t∈[1,n],n是句子的长度;
[0023] 进一步的,步骤5具体实现如下:
[0024] 5-1规定只有动词和名词作为触发词候选词,一共有39种子类型,其中包括“其他”类型;对句子中的每个词进行词性判断,如果词性为动词或名词,将当前t时刻的隐含状态向量Ht表示与句子向量F连接,输入触发词多分类公式中:
[0025]
[0026]
[0027] 其中,WT和bT分别是触发词多分类的权重矩阵和偏置项; 表示第t个词(每个词为一个时刻)的触发词候选词触发事件类型的概率, 表示第t个时刻触发的事件类型;
[0028] 进一步的,步骤6具体实现如下:
[0029] 6-1实体关系论元角色一共有20种,创建随机初始化的实体关系论元角色向量表,通过实体关系论元角色查找该向量表,并在训练的过程中调整向量;用 表示第i个实k体提及在实体关系向量R中扮演第j种实体关系论元角色;
[0030] 6-2将句子中实体提及作为事件论元候选词;依次将第i个事件论元候选词(第i个实体提及)隐含状态向量 在步骤5-1被识别为触发词的第t个词的隐含状态向量Ht、包含实体关系的句子向量F以及第i个事件论元候选词在实体关系Rk中的实体关系论元角色 连接;将连接向量输入事件论元识别多分类公式:
[0031]
[0032]
[0033] 其中,WA和bA分别是事件论元分类的权重矩阵和偏置项, 表示第i个事件论元候选词在事件类型 扮演的事件论元角色的概率值; 表示第i个事件论元候选词在事件类型 扮演的事件论元角色;
[0034] 本发明有益效果如下:
[0035] 针对现有技术的不足,提出一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法。利用依存Tree-LSTM和双向LSTM获取每个时刻的隐含状态向量,将实体关系向量和实体关系论元角色向量分别和这些隐含状态向量结合,对触发词候选词和论元候选词进行多分类。该模型不仅可以减少错误的触发词类型对论元识别的影响,也可以充分利用实体关系、实体关系论元角色信息,从而提高事件抽取模型的准确性。