[0041] 附图非限制性地公开了本发明所涉及优选实例的流程示意图;以下将结合附图详细地说明本发明的技术方案。
[0042] 事件抽取是信息抽取研究的重要组成部分,是新闻热点抽取和社会舆情分析的常用技术基础。事件抽取就是从大量文本中找出事件提及,由事件触发词和事件论元组成。因此事件抽取主要包含事件检测和论元识别两个子任务。事件检测希望找出句子的所有触发词并为其分配正确的事件类型,事件检测结果的好坏直接影响论元识别和分类的性能。先前的工作直接将标注好的实体关系编码成词表示的一部分,结合词汇级别注意力获取重要的语义信息来提高事件检测模型的性能。但是,他们忽略了句子中往往有多对实体关系,和单词一样,不同的实体关系对候选触发词在识别过程中的影响不同。因此,为了同时获取重要的词汇级别特征和实体关系级别特征信息,我们提出了基于实体关系级别注意力机制的事件检测方法。
[0043] 如图2所示,基于实体关系级别注意力机制的事件检测方法,按照如下步骤进行:
[0044] 步骤1、对原始文本中的单词和实体关系进行编码,分别获取词汇级别向量序列和实体关系级别向量序列;
[0045] 步骤2、将步骤1的词汇级别向量序列输入依存Tree‑LSTM,获取句子的词汇级别表示;
[0046] 步骤3、将步骤1的实体关系级别向量序列输入双向LSTM,获取实体关系级别表示;
[0047] 步骤4、利用词汇级别注意力机制获取句中第i个单词对第t个候选触发词的影响权重 将句中的词汇级别表示加权平均,获取句子完整的语义信息
[0048] 步骤5、利用实体关系级别注意力机制获取句中第j个实体关系对第t个候选触发词的影响权重 将句中每个实体关系级别表示加权平均,获取句中完整的实体关系信息[0049] 步骤6、针对第t个候选触发词,对语义信息 实体关系信息 根节点词汇级别表示 以及候选触发词的词汇级别表示 进行拼接,然后进行触发词识别和分类;
[0050] 进一步的,步骤1具体实现如下:
[0051] 1‑1.从KBP 2017英文数据集标注文件中获取实体提及、实体类型、实体关系、事件触发词。KBP 2017英文数据集一共定义了19种事件类型和21种实体关系(其中都包含“空”类型)。利用Stanford CoreNLP工具对数据集中原始文本进行分句、分词以及获取单词的词性和每个句子的依存树结构。然后创建词性向量表、实体类型向量表、实体关系向量表以及触发词类型向量表,其中在每个向量表中定义”空”类型对应的向量。随机初始化这些向量,在训练的时候更新这些向量。
[0052] 1‑2.首先查询预训练的Glove词向量矩阵、词性向量表、实体类型向量表。分别获取句子中每个词的词向量wi、词性向量wpos、实体类型向量we。然后查询实体关系向量表,获取句子中出现的每个实体关系对应的向量r。
[0053] 1‑3.每个单词真值向量为xi={wi,wpos,we},所以句子词汇级别向量序列W={x1,x2,...,xn‑1,xn},实体关系级别向量序列R={r1,r2,...,rk‑1,rk}。其中n是句子的长度、k为实体关系的个数(k有可能为0)。
[0054] 进一步的,步骤2具体实现如下:
[0055] 2‑1.为了获取句子中每个单词的词汇级别表示,利用Stanford CoreNLP工具解析每个句子生成依存树结构,其中,每个单词对应依存树结构中的一个节点。在依存树结构基础上构建依存Tree‑LSTM,将W={x1,x2,...,xn‑1,xn}作为依存Tree‑LSTM的输入,获取每个单词的词汇级别表示,例如,第i个单词的词汇级别表示为 以及包含整个句子信息的根节点的词汇级别表示为 因此,句子的词汇级别表示序列 其中i,root∈[1,n],n是句子的长度。
[0056] 进一步的,步骤3具体实现如下:
[0057] 3‑1.为了获取句子中实体关系级别表示,将句中实体关系级别向量序列R={r1,r2,...,rk‑1,rk}输入双向LSTM,获取每个实体关系对应的前向隐含状态向量和后向隐含状态向量,例如, 和 分别表示第j(j∈k)个实体关系对应的前向隐含状态向量和后向隐含状态向量。为了和步骤2中依存Tree‑LSTM的每个单词的词汇级别表示维度一致,采用求平均的方式获取第j个实体关系级别表示 因此,句子的实体关系级别表示序列 其中,k是句子实体关系的个数。
[0058] 进一步的,步骤4具体实现如下:
[0059] 4‑1.利用词汇级别注意力机制捕获重要的上下文信息,而候选触发词及其周围的单词应该获得更高的注意力权重。首先利用公式1计算候选触发词的词汇级别表示 和第i个单词的词汇级别表示 的相似度。
[0060] st,i=tanh(htwWw(hiw)T+bw) 公式1
[0061] 其中,Ww和bw分别是相似度计算公式的权重矩阵和偏置项。然后根据st,i,获取第i个单词对第t个候选触发词的影响权重
[0062]
[0063] 这里的st,m表示句中第m个单词的词汇级别表示 与候选触发词的词汇级别表示的相似度,其中,1≤m≤n。
[0064] 对于第t个候选触发词,将句中每个单词的词汇级别表示加权平均获取句中完整的语义信息
[0065] 进一步的,步骤5具体实现如下:
[0066] 5‑1.句子中往往包含多对实体关系,不同的实体关系对第t个候选触发词的影响不同。首先利用公式3计算候选触发词的词汇级别表示 和第j个实体关系的实体关系级别表示 的相似度:
[0067]
[0068] 其中,Wr和br分别表示相似度计算公式的权重矩阵和偏置项。然后根据st,j,获取第j个实体关系对第t个候选触发词的影响权重:
[0069]
[0070] 这里的st,l表示句中第l个实体关系的实体关系级别表示hlr与候选触发词的词汇级别表示 的相似度,其中,1≤l≤k,而对于第t个候选触发词,将句中实体关系级别表示序列加权平均获取句中完整的实体关系信息
[0071] 进一步的,步骤6具体实现如下:
[0072] 6‑1.触发词检测和识别是一个多分类的过程,针对第t个候选触发词,对步骤4的步骤5的 根节点词汇级别表示 以及候选触发词的词汇级别表示 进行拼接,然后带入公式5进行触发词识别和分类:
[0073]
[0074] ETt=argmax(Pt) 公式6
[0075] 其中,Wt和bt是触发词多分类的权重矩阵和偏置项,Pt表示第t个候选触发词触发事件类型的概率分布,而ETt则表示第t个候选触发词触发的事件类型。