首页 > 专利 > 杭州电子科技大学 > 基于实体关系和依存Tree-LSTM的联合事件抽取的方法专利详情

基于实体关系和依存Tree-LSTM的联合事件抽取的方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2020-02-22
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2020-07-24
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2020-10-16
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2040-02-22
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202010109601.1 申请日 2020-02-22
公开/公告号 CN111353306B 公开/公告日 2020-10-16
授权日 2020-10-16 预估到期日 2040-02-22
申请年 2020年 公开/公告年 2020年
缴费截止日
分类号 G06F40/289G06F40/295G06F40/30G06F16/951G06K9/62G06N3/04G06N3/08 主分类号 G06F40/289
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 6
权利要求数量 7 非专利引证数量 1
引用专利数量 0 被引证专利数量 0
非专利引证 1、CN 102693219 A,2012.09.26CN 105260361 A,2016.01.20CN 107992476 A,2018.05.04CN 110598001 A,2019.12.20周晶晶.基于依存树的越南语新闻事件元素抽取技术研究《.中国优秀硕士学位论文全文数据库 信息科技辑》.2017,(第02期),;
引用专利 被引证专利
专利权维持 2 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 张旻、曹祥彪、汤景凡、姜明、李鹏飞 第一发明人 张旻
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 5
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明公开了一种基于实体关系和依存Tree‑LSTM的联合事件抽取的方法。本发明步骤:1、对原始文本以及文本标注信息进行编码。2、将步骤1的结果输入双向LSTM。获取具有时序的前向和向后隐含状态向量。3、首先将输入句子解析成依存树形结构,然后将步骤1结果输入构建的依存Tree‑LSTM,获取树根节点隐含状态向量和每个时刻的隐含状态向量。4、获取保存实体关系句子信息特征向量。同时连接双向LSTM t的前向、向后隐含状态向量以及依存Tree‑LSTM t时刻的隐含状态向量5、进行触发词识别和分类;6、进行事件论元的识别和分类。
  • 摘要附图
    基于实体关系和依存Tree-LSTM的联合事件抽取的方法
  • 说明书附图:图1
    基于实体关系和依存Tree-LSTM的联合事件抽取的方法
  • 说明书附图:图2
    基于实体关系和依存Tree-LSTM的联合事件抽取的方法
  • 说明书附图:图3
    基于实体关系和依存Tree-LSTM的联合事件抽取的方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-10-16 授权
2 2020-07-24 实质审查的生效 IPC(主分类): G06F 40/289 专利申请号: 202010109601.1 申请日: 2020.02.22
3 2020-06-30 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.基于实体关系和依存Tree-LSTM的联合事件抽取的方法,其特征在于包括如下步骤:
步骤1、对原始文本以及文本标注信息进行编码;
步骤2、将步骤1的结果输入双向LSTM;获取具有时序的前向隐含状态向量 和后向隐含状态向量
步骤3、首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构,然后将步骤
1的编码结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量 和t个时刻的隐含状态向量
步骤4、将实体关系向量Rk编码连接树根节点隐含状态向量 获取保存实体关系句子向量 同时连接双向LSTM t时刻的前向隐含状态向量 和后向隐含状态向
量 以及依存Tree-LSTM  t时刻的隐含状态向量 求得新隐含状态向量
从而既保存子结点的信息也获取具有一定时序的局部下上文信息;
步骤5、连接步骤4中t时刻隐含状态向量Ht与句子向量F,进行触发词识别和分类;
步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量Ht、第i个事件论元候选词即第i个实体提及隐含状态向量 包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量Rk中的实体关系论元角色 连接,进行事件论元的识别和分类。

2.根据权利要求1所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤1具体实现如下:
1-
1.从源文件中获取未处理原始文本以及文本标注信息,标注信息包含实体提及、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色,其中,一共7种实体类型,39种事件触发词类型、20种实体关系类型和16种实体关系论元角色;然后利用Stanford CoreNLP对原始文本进行分句、分词;获取词性和句子的依存树形结构,其中,每个词作为树性结构的一个结点;并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表,其中每一种向量表都有类型“其他”对应的初始化向量;
1-
2.查询预训练的glove词向量矩阵,获取句子中每个词的词向量wi,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量we;
获取每个词表示xi={wi,wpos,we},因此句子向量矩阵表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。

3.根据权利要求1或2所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤2具体实现如下:
将句子的向量矩阵W={x1,x2,...,xn-1,xn}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵 和后向隐含状态矩阵 其中
和 分别表示t时刻的前向隐含状态向量和后向隐含状态,t∈[1,n],双向LSTM是一种时间序列敏感的模型,因此, 和 分别保存具有一定时序信息的上文和下文信息。

4.根据权利要求3所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤3具体实现如下:
通过Stanford CoreNLP工具将每个句子解析成树形结构,句中每个单词构成树形结构的结点,与该单词有依存关系的则以该结点的父节点或者子结点出现;将W={x1,x2,...,xn-1,xn}输入到该树形结构为基础构建的依存Tree-LSTM,获取该句子解析成的树形结构中的每个结点的隐含状态向量 和根节点的隐含状态向量 因此句子的依存Tree-LSTM输出的句子的隐含状态矩阵 其中t,root∈[1,n],n是句子的长度。

5.根据权利要求4所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤4具体实现如下:
4-
1.通过查询步骤1随机初始化的实体关系表,获取句子中的实体关系向量Rk,表示第k种实体关系;如果不存在实体关系,Rk指向“其他”的实体关系向量,并在训练过程中调整向量;
4-2依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到;所以语义依存树结构中的根节点包含全句信息,为了使句子中包含实体关系信息的句子级别的向量,将步骤4生成的根节点隐含向量 和实体关系向量Rk连接,获取包含实体关系信息的句子向量
4-3将步骤2和步骤3每个时刻的隐含向量组合,同时为降低隐含向量的维度,采用求平均的方式获取t时刻的隐含状态向量: 而整个句子的隐含状态矩阵
为H={H1,H2,···,Hn-1,Hn},其中t∈[1,n],n是句子的长度。

6.根据权利要求5所述的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤5具体实现如下:
5-1规定只有动词和名词作为触发词候选词,一共有39种子类型,其中包括“其他”类型;对句子中的每个词进行词性判断,如果词性为动词或名词,将当前t时刻的隐含状态向量Ht表示与句子向量F连接,输入触发词多分类公式中:
Pttri=softmaxtri(WT[Ht,F]+bT)
其中,WT和bT分别是触发词多分类的权重矩阵和偏置项;Pttri表示第t个词的触发词候选词触发事件类型的概率,每个词为一个时刻, 表示第t个时刻触发的事件类型。

7.根据权利要求6所述的基于实体关系和依存Tree-LSTM的联合事件抽取的方法的步骤6具体实现如下:
6-1实体关系论元角色一共有20种,创建随机初始化的实体关系论元角色向量表,通过实体关系论元角色查找该向量表,并在训练的过程中调整向量;用 表示第i个实体提k
及在实体关系向量R中扮演第j种实体关系论元角色;
6-
2.将句子中实体提及作为事件论元候选词;依次将第i个事件论元候选词隐含状态向量 在步骤5-1被识别为触发词的第t个词的隐含状态向量Ht、包含实体关系的句子向量F以及第i个事件论元候选词在实体关系Rk中的实体关系论元角色 连接;将连接向量输入事件论元识别多分类公式:
其中,WA和bA分别是事件论元分类的权重矩阵和偏置项, 表示第i个事件论元候选词在事件类型 扮演的事件论元角色的概率值; 表示第i个事件论元候选词在事件类型 扮演的事件论元角色。
说明书

技术领域

[0001] 本发明设计事件抽取方法,具体来讲是一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法,属于自然语言处理领域。

背景技术

[0002] 事件抽取(Event Extraction,EE)是信息抽取任务(Information Extraction,IE)的重要组成。事件抽取主要包括触发词识别和分类(Event Detection,ED)和事件论元识别和分类(Argument Identification,AI)两个子任务,ED任务主要是从文本中找出引发事件的触发词,并正确判断触发词的事件类型。而后者这是在确定句子是事件句(包含触发词),然后判断句子中出现的实体提及是否为该事件论元。并为每个实体提及分配正确的事件论元角色。随着海量文本信息的出现以及深度学习技术的深度发展,事件抽取也成为人们研究的热点问题。此外,事件抽取技术已应用于新闻消息归类、社会舆情管理等。

发明内容

[0003] 本发明主要针对于事件触发词和事件论元的依赖路径过长和模型输出特征缺乏实体关系的问题提出的一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法。
[0004] 基于实体关系和依存Tree-LSTM的联合事件抽取的方法,按照如下步骤进行:
[0005] 步骤1、对原始文本以及文本标注信息进行编码;
[0006] 步骤2、将步骤1的结果输入双向LSTM;获取具有时序的前向隐含状态向量 和后向隐含状态向量
[0007] 步骤3、首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构,然后将步骤1的编码结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量和t个时刻的隐含状态向量
[0008] 步骤4、将实体关系向量Rk编码连接树根节点隐含状态向量 获取保存实体关系句子向量 同时连接双向LSTM t时刻的前向隐含状态向量 和后向隐含状态向量 以及依存Tree-LSTM  t时刻的隐含状态向量 求得新隐含状态向量
从而既保存子结点的信息也获取具有一定时序的局部下上文信息;
[0009] 步骤5、连接步骤4中t时刻隐含状态向量Ht与句子向量F,进行触发词识别和分类;
[0010] 步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量Ht、第i个事件论元候选词(第i个实体提及)隐含状态向量 包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量Rk中的实体关系论元角色 连接,进行事件论元的识别和分类;
[0011] 进一步的,步骤1具体实现如下:
[0012] 1-1从源文件中获取未处理原始文本以及文本标注信息,标注信息包含实体提及、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色,其中,一共7种实体类型,39种事件触发词类型、20种实体关系类型和16种实体关系论元角色;然后利用Stanford CoreNLP对原始文本进行分句、分词;获取词性和句子的依存树形结构,其中,每个词作为树性结构的一个结点;并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表,其中每一种向量表都有类型“其他”对应的初始化向量;实体提及可能由多个词构成;为了方便表示实体提及,我们用每个实体提及的head(多为实体提及的最后一个单词)表示每个实体提及以及head在句子中出现的下标表示每个实体提及的下标;因此,每个实体提及的下标用符号表示:head1,head2,head3,...,headk-1,headk(其中k是实体提及的个数,k有可能为零);为此,我们用 表示句子中出现的实体提及;随机初始化所有向
量表中的每个向量,在训练的时候更新这些向量;
[0013] 1-2查询预训练的glove词向量矩阵,获取句子中每个词的词向量wi,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量we;
[0014] 获取每个词表示xi={wi,wpos,we},因此句子向量矩阵表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度;
[0015] 进一步的,步骤2具体实现如下:
[0016] 将句子的向量矩阵W={x1,x2,...,xn-1,xn}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵 和后向隐含状态矩阵 其中和 分别表示t时刻的前向隐含状态向量和后向隐含状态,t∈[1,n],双向LSTM是一种时间序列敏感的模型,因此, 和 分别保存具有一定时序信息的上文和下文信息;
[0017] 进一步的,步骤3具体实现如下:
[0018] 通过Stanford CoreNLP工具将每个句子解析成树形结构,句中每个单词构成树形结构的结点,与该单词有依存关系的则以该结点的父节点或者子结点出现;将W={x1,x2,...,xn-1,xn}输入到该树形结构为基础构建的依存Tree-LSTM,获取该句子解析成的树形结构中的每个结点的隐含状态向量 和根节点的隐含状态向量 因此句子的依存Tree-LSTM输出的句子的隐含状态矩阵 其中t,root∈[1,n],n是句子的长度;
[0019] 进一步的,步骤4具体实现如下:
[0020] 4-1.通过查询步骤1随机初始化的实体关系表,获取句子中的实体关系向量Rk,表k示第k种实体关系;如果不存在实体关系,R指向“其他”的实体关系向量,并在训练过程中调整向量;
[0021] 4-2依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到;所以语义依存树结构中的根节点包含全句信息,为了使句子中包含实体关系信息的句子级别的向量,将步骤4生成的根节点隐含向量 和实体关系向量Rk连接,获取包含实体关系信息的句子向量
[0022] 4-3将步骤2和步骤3每个时刻的隐含向量组合,同时为降低隐含向量的维度,采用求平均的方式获取t时刻的隐含状态向量: 而整个句子的隐含状态矩阵为H={H1,H2,···,Hn-1,Hn},其中t∈[1,n],n是句子的长度;
[0023] 进一步的,步骤5具体实现如下:
[0024] 5-1规定只有动词和名词作为触发词候选词,一共有39种子类型,其中包括“其他”类型;对句子中的每个词进行词性判断,如果词性为动词或名词,将当前t时刻的隐含状态向量Ht表示与句子向量F连接,输入触发词多分类公式中:
[0025]
[0026]
[0027] 其中,WT和bT分别是触发词多分类的权重矩阵和偏置项; 表示第t个词(每个词为一个时刻)的触发词候选词触发事件类型的概率, 表示第t个时刻触发的事件类型;
[0028] 进一步的,步骤6具体实现如下:
[0029] 6-1实体关系论元角色一共有20种,创建随机初始化的实体关系论元角色向量表,通过实体关系论元角色查找该向量表,并在训练的过程中调整向量;用 表示第i个实k体提及在实体关系向量R中扮演第j种实体关系论元角色;
[0030] 6-2将句子中实体提及作为事件论元候选词;依次将第i个事件论元候选词(第i个实体提及)隐含状态向量 在步骤5-1被识别为触发词的第t个词的隐含状态向量Ht、包含实体关系的句子向量F以及第i个事件论元候选词在实体关系Rk中的实体关系论元角色 连接;将连接向量输入事件论元识别多分类公式:
[0031]
[0032]
[0033] 其中,WA和bA分别是事件论元分类的权重矩阵和偏置项, 表示第i个事件论元候选词在事件类型 扮演的事件论元角色的概率值; 表示第i个事件论元候选词在事件类型 扮演的事件论元角色;
[0034] 本发明有益效果如下:
[0035] 针对现有技术的不足,提出一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法。利用依存Tree-LSTM和双向LSTM获取每个时刻的隐含状态向量,将实体关系向量和实体关系论元角色向量分别和这些隐含状态向量结合,对触发词候选词和论元候选词进行多分类。该模型不仅可以减少错误的触发词类型对论元识别的影响,也可以充分利用实体关系、实体关系论元角色信息,从而提高事件抽取模型的准确性。

实施方案

[0039] 附图非限制性地公开了本发明所涉及优选实例的流程示意图;以下将结合附图详细地说明本发明的技术方案。
[0040] 事件抽取是信息抽取研究的重要组成部分,是新闻热点抽取和社会舆情分析的常用技术基础。事件抽取就是从大量文本中找出事件提及,由事件触发词和事件论元组成。因此事件抽取主要包含触发词识别和事件论元角色分类两个任务。有些研究把上述任务分成两个阶段,第一阶段首先获取触发词的事件类型,然后再根据触发词的类别,去判断句子中事件论元候选词的角色。这种方法的不足就是第一阶段触发词的错误分类影响事件论元角色分类的效果,因此,触发词识别和事件论元分类的联合学习模型被提出。但上述模型并没有充分利用实体关系以及实体提及在实体关系论元角色。因此我们提出了基于实体关系和依存Tree-LSTM的联合事件抽取的方法。
[0041] 如图1-3所示,一种基于实体关系和依存Tree-LSTM的联合事件抽取的方法,按照如下步骤进行:
[0042] 步骤1对原始文本以及文本标注信息进行编码。
[0043] 步骤2将步骤1的结果输入双向LSTM。获取具有时序的前向隐含状态向量 和后向隐含状态向量
[0044] 步骤3首先利用Stanford CoreNLP工具将输入句子解析成依存树形结构,然后将步骤1的结果输入依存树形结构构建的依存Tree-LSTM,获取树根节点隐含状态向量 和每个时刻的隐含状态向量
[0045] 步骤4将实体关系Rk编码连接 获取保存实体关系句子信息特征向量同时,连接双向LSTM t的前向隐含状态向量 和后向隐含状态向量 以及依存Tree-LSTM t时刻的隐含状态向量 使 既可以保存子结点的信
息也可以获取具有一定时序的局部下上文信息。
[0046] 步骤5、连接步骤4中t时刻隐含状态向量Ht与句子向量F,进行触发词识别和分类;
[0047] 步骤6、依次将步骤5中被识别为触发词的第t个词的隐含状态向量Ht、第i个事件论元候选词(第i个实体提及)隐含状态向量 包含实体关系的句子向量F以及第i个事件论元候选词在实体关系向量Rk中的实体关系论元角色 连接,进行事件论元的识别和分类。
[0048] 进一步的,步骤1具体实现如下:
[0049] 从源文件中获取未处理原始文本和以及标注信息,标注信息包含实体词、实体类型、事件触发词、事件论元、事件论元角色、实体关系、实体关系论元角色,其中,一共7种实体类型,39种事件触发词类型、20种实体关系类型和16种实体关系论元角色。然后利用Stanford CoreNLP对原始文本进行分句、分词。获取词性和句子的依存树形结构,其中,每个词作为树性结构的一个结点。并分别创建词性向量表、实体类型向量表、实体关系向量表、实体关系论元角色向量表、触发词类型向量表以及事件论元角色向量表,其中每一种向量表都有“其他”对应的初始化向量。随机初始化这些向量,在训练的时候更新这些向量。
[0050] 查询预训练的glove词向量矩阵,获取句子中每个词的词向量wi,然后查询词性向量表得到wpos和查询实体类型得到we。
[0051] 将获取到的每个词表示xi={wi,wpos,we},因此句子向量矩阵表示为W={x1,x2,...,xn-1,xn},其中n是句子的长度。
[0052] 将句子的向量矩阵W={x1,x2,...,xn-1,xn}输入双向LSTM中,分别获取该句子的前向隐含状态矩阵 和后向隐含状态矩阵 其中 和 分别表示t时刻的前向隐含状态向量和后向隐含状态,t∈[1,n],双向LSTM是一种时间序列敏感的模型,因此, 和 分别保存具有一定时序信息的上文和下文信息。
[0053] Stanford CoreNLP工具将每个句子解析成树形结构,句中每个单词构成树形结构的结点,其中,与该单词有依存关系以该结点的父节点或者子结点出现。将W={x1,x2,...,xn-1,xn}输入到该树形结构为基础构建的依存Tree-LSTM,获取该句子解析成的树结构中的每个结点的隐含状态向量 和根节点的隐含状态向量 因此句子的依存Tree-LSTM输出句子的隐含状态矩阵 其中t,root∈[1,n],n是句子的长度。
[0054] 在事件抽取中,有些触发词在识别时会出现歧义,例如:Elop plan to leave Nokia。大部分事件抽取模型(EE)更容易将leave识别为事件类型transport,但是如果利用句子中实体Elop和实体Nokia中存在membership的关系,EE就较容易识别出句子中leave触发的End-Position事件。因此,通过查询步骤(1)随机初始化的实体关系表,获取句子中的实体关系向量Rk(表示第k种实体关系),如果不存在实体关系,Rk指向“其他”的实体关系向量,并在训练过程中调整向量。
[0055] 依存Tree-LSTM中每个结点的记忆单元向量c和隐含状态向量h都是由该结点的子结点的隐含状态向量求和得到。所以,语义依存树结构中的根节点包含全句信息,为了使句子中包含实体关系信息的句子级别的向量,将步骤4生成的根节点隐含向量 和实体关系向量Rk连接,获取包含实体关系信息的句子向量
[0056] 依存Tree-LSTM是一种非时间序列敏感的模型,那么每个时刻输出的隐含状态向量也缺少一定的时间序列信息,因此,将步骤2和步骤3每个时刻的隐含向量组合,但为了降低隐含向量的维度,采用求平均的方式获取t时刻的隐含状态向量:而整个句子的隐含状态矩阵为H={H1,H2,…,Hn-1,Hn},其中t∈[1,n],n是句子的长度。
[0057] 规定只有动词和名词作为触发词候选词,一共有39种子类型,其中包括“其他”类型。首先对句子中的每个词进行词性判断,如果词性为动词或名词,将当前t时刻的隐含状态向量Ht表示与句子向量F连接,输入触发词多分类公式中:
[0058]
[0059]
[0060] 其中, 表示第t个词的触发词候选词触发事件类型的概率, 表示第t词触发的事件类型。
[0061] 对于判断句子中事件论元候选词(实体提及)在事件类型中扮演的事件论元角色,希望利用该实体提及在实体关系中扮演的实体关系论元角色。如同4-1提到的例句,如果模型获知Elop和Nokia两个实体提及分别在实体关系membership中扮演employeemember和org。模型会更容易为事件类型transport中的两个事件论元Elop和Nokia分配事件论元角色Person和Entity。实体关系论元角色一共有20种,创建随机初始化的实体关系论元角色向量表,通过实体关系论元角色查找该表,并在训练的过程中调整向量。用 表示i时k刻的实体提及在实体关系R中扮演第j种实体关系论元角色。
[0062] 将句子中实体提及作为事件论元候选词。依次将第i个事件论元候选词隐含状态向量Hi、在5-1被识别为触发词的第t个词的隐含状态向量连接Ht,包含实体关系的句子向量F以及第i个事件论元候选词在关系关系Rk中的实体关系论元角色 连接。将连接向量输入事件论元识别多分类公式:
[0063]
[0064]
[0065] 其中, 表示第i个事件论元候选词在事件类型 扮演的事件论元角色的概率值。 表示第i个事件论元候选词在事件类型 扮演的事件论元角色。

附图说明

[0036] 图1是本发明的整体实施流程图。
[0037] 图2是本发明触发词识别和分类以及事件论元识别和分类的具体流程图。
[0038] 图3是本发明模型网络结构图。
专利联系人(活跃度排行)
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号