首页 > 专利 > 杭州电子科技大学 > 基于图片和句子的多模态联合事件检测方法专利详情

基于图片和句子的多模态联合事件检测方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2021-06-15

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-11-09

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-09-13

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2041-06-15

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202110660692.2	申请日	2021-06-15
公开/公告号	CN113535949B	公开/公告日	2022-09-13
授权日	2022-09-13	预估到期日	2041-06-15
申请年	2021年	公开/公告年	2022年
缴费截止日
分类号	G06F16/35 、G06F16/55 、G06K9/62	主分类号	G06F16/35
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	5
权利要求数量	6	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2017.08.17Jingli Zhang等.Interactive learningfor joint event and relation extraction. 《Springer》.2019,全文. 钱胜胜.多媒体社会事件分析综述《.计算机科学》.2021,第48卷(第3期),全文.;
引用专利	WO2017139764A	被引证专利
专利权维持	1	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	张旻、曹祥彪、汤景凡、姜明	第一发明人	张旻
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	4
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明公开了一种基于图片和句子的多模态联合事件检测方法，同时从图片和句子中识别事件。本发明一方面利用现有的单模态数据集分别学习图片和文本事件分类器；另一方面利用已有的图片与标题对训练图片句子匹配模块，找出多模态文章中语义相似度最高的图片和句子，从而获取图片实体和单词在公共空间的特征表示。这些特征有助于图片和文本事件分类器之间共享参数，得到共享事件分类器。最后，利用少量的多模态标注数据对模型进行测试，利用共享事件分类器分别获取图片和句子描述的事件及其类型。本发明从图片和句子中识别事件,利用视觉特征和文本特征的互补性，不仅提高了单模态事件分类的性能，而且可以发现文章中更完整的事件信息。

摘要附图
说明书附图：图1
说明书附图：图2

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-09-13	授权
2	2021-11-09	实质审查的生效	IPC(主分类): G06F 16/35 专利申请号: 202110660692.2 申请日: 2021.06.15
3	2021-10-22	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于图片和句子的多模态联合事件检测方法，其特征在于包括如下步骤：
步骤1、文本事件检测模块首先对文本特征进行编码，获取句中单词的特征向量表示序列对于第j个候选触发词，然后将其对应的候选触发词特征向量
输入文本事件分类器SoftmaxT，获取第j个候选触发词触发的事件类型概率分布，其中文本T
事件分类器的损失函数定义为L；
步骤2、图片事件检测模块对图片特征进行编码，获取图片中描述动作以及多个实体的图片实体特征向量表示序列然后将图片实体特征向量输入图片
事件分类器SoftmaxI，获取当前图片描述的事件类型概率分布，其中图片事件分类器的损I
失函数定义为L；
步骤3、图片句子匹配模块首先利用跨模态注意力机制CMAM计算每一对图片实体与单词之间的关联权值；
根据第j个单词，CMAM能够定位重要的图片实体并分配权重，通过加权平均聚合与单词相关的图片实体特征，获取单词在图片模态的特征表示
同时对于图片中的第i个实体，首先在待匹配的句子中搜索相关的单词，并为单词分配权重，通过加权平均捕获与图片实体相关的语义信息，从而获取图片实体在文本模态的特征表示
T←I
然后将每个待匹配句子与其在图片模态中的特征表示序列的欧氏距离D ，与图片中I←T
所有实体与其在文本模态中的特征表示序列的欧氏距离D 进行相加，作为图片和句子的m
相似度；其中，图片句子匹配模块的损失函数定义为L；
步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块，从而获取共享事件分类器；
步骤5、在测试阶段，对于多模态文章，首先利用图片句子匹配模块找出相似度最高的图片和句子，并获取第i个图片实体在文本模态的特征表示以及第j个单词在图片模态的特征表示然后利用门控注意力机制为图片实体特征向量和特征表示分配权重，通过加权平均获取第i个图片实体对应的多模态特征向量；接着利用共享事件分类器获取图片描述的事件类型；同样，利用另外一个门控注意力机制为候选触发词特征向量和特征表示分配权重，通过加权平均获取第j个单词的多模态特征表示，接着利用共享事件分类器获取第j个单词触发的事件类型。

2.根据权利要求1所述的基于图片和句子的多模态联合事件检测方法，其特征在于，步骤1具体实现如下：
1‑
1.在KBP 2017英文数据集上训练文本事件分类器SoftmaxT，首先对标注数据进行预处理，获取实体类型、事件触发词及其对应的事件类型；其中包含5种实体类型和18种事件类型；然后利用Stanford CoreNLP对原始文本进行分句、分词，获取词性和句子的语法依存结构；并分别创建词性向量表、实体类型向量表，其中每一种向量表都有类型“空”对应的初始化向量；
1‑
2.查询预训练的glove词向量矩阵，获取句子中每个词的词向量wemd,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量wentity，每个词的实值向量x＝{wemd,wpos,wentity}，因此句子实值向量序列表示为W＝{x1,x2,...,xn‑1,xn},其中n是句子的长度；
1‑
3.将句子实值向量序列W＝{x1,x2,...,xn‑1,xn}作为Bi‑LSTMs的输入，获取句子的隐含状态向量序列构建基于句子语法依存结构的图卷积网络，接着
L
将H 输入GCNs中，获取句子的卷积向量序列最后利用注意力计算
T
序列H 中的每个元素对候选触发词的影响权重，从而获取句子的编码序列
T
同时将C作为单词序列在公共空间的特征表示序列；
1‑
4.将句子中的每个单词视为候选触发词，对于第j个候选触发词，其中j≤n，然后将其对应的特征向量输入文本事件分类器:
T T
其中，W和b作为文本事件分类器SoftmaxT的权重矩阵和偏置项, 表示句子S
中第j个候选触发词wj触发的事件类型概率分布，而typew,j表示wj触发的事件类型；同时，文本事件分类器的损失函数定义为：
其中，T是KBP 2017英文数据集中标注的句子数量，作为单词wj标注的事件类型，Si表示数据集中第i个句子，句子长度为n。

3.根据权利要求2所述的基于图片和句子的多模态联合事件检测方法，其特征在于，步骤2具体实现如下：
2‑
1.在imSitu图片数据集上训练图片事件分类器，其中，一共定义了504个动词记录图片描述的动作，以及11538种实体类型描述图片中出现的实体；首先利用VGG16v去提取图片中的动作特征，并利用多层感知机MLPv将动词特征转换成动词向量同时，利用另外一个VGG16o提取图片中的实体集合O＝{o1,o2,...,om‑1,om}，然后通过多层感知机MLPo将所有实体转换成它们对应的名词向量序列然后用网状结构表示每张图片，
根据其描述的动作和实体构建网状结构；其中，图片描述的动作作为网状结构的中心节点，同时将实体与动作节点进行连接；接着采用图卷积网络对图片特征对应的单词向量序列进行编码，从而使得动作节点卷积计算后的向量保存实体特征信息；其中，编码后的图片实体特征向量序列为其中，用来表示图片动作节点的卷积向量；同
I
样，H被视图片动作以及实体集合在公共空间的特征表示序列；
2‑
2.将图片I中动作卷积向量作为图片事件分类器的输入，获取图片描述事件类型的概率分布为：
I
typeI＝argmax(P(y|I))
I I I
其中，W和b作为图片事件分类器SoftmaxI的权重矩阵和偏置项,P(y|I)表示图片Ii触发的事件类型概率分布，而typeI表示图片I中描述的事件类型；同时，图片事件分类器的损失函数定义为：
I
其中，N代表着imSitu中图片标注事件样例的个数，y 作为图片Ii标注的事件类型，Ii表示图片数据集中第i个图片样例。

4.根据权利要求3所述的基于图片和句子的多模态联合事件检测方法，其特征在于，步骤3具体实现如下：
3‑
1.给出图片I对应的实体特征向量序列以及句子S的单词特征
向量序列首先利用跨模态注意力机制获取单词和图片实体在其他
模态的特征表示；
3‑
2.为了获取基于单词的图片实体特征表示，首先利用跨模态注意力机制计算图片中第i个实体与句子中第j单词的关联程度Scoreij：
其中，表示图片中第i个实体的特征向量与句子中第j单词的特征向量
的余弦相似度，值域为[0,1]；然后根据Scoreij计算第i个图片实体对第j单词的影响权重Aij为：
最后，通过加权平均的方式聚合基于第j个单词的图片实体特征表示
用表示整个句子在图片模态的特征表示序列；
3‑
3.为了获得基于图片实体的单词特征表示，采用和获取向量相同的计算过程，对于图片中第i个实体，根据第j个单词与当前图片实体的相关性，为第j个单词分配注意力权重：
然后，通过加权平均捕获基于图片第i个实体的单词特征表示同
样图片中所有实体在文本模态的表示为：
3‑
4.采用弱一致性的对齐方式，将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离，与每个句子与其在图片模态中的特征表示序列的欧氏距离之和；
首先，计算每个句子与其在图片模态中的特征表示序列的欧氏距离：
然后计算图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为：
T←I I←T
因此，图片I和句子S的语义相似度定义为＜I,S＞＝D +D ；
为了获取语义相似度＜I,S＞最高的图片句子对，使用tripletloss优化图片句子匹配‑
模块；对于每一对正确匹配的图片和句子，额外抽取一个与句子S不匹配的图片I ，以及一‑ ‑ ‑
个与图片I不匹配的句子S，构成两个否定对＜I,S＞和＜I ,S＞；
最后图片句子匹配模块的损失函数定义为：
m ‑ ‑
L＝max(0,(1+＜I,S＞‑＜I,S＞))+max(0,(1+＜I,S＞‑＜I ,S＞))。

5.根据权利要求4所述的基于图片和句子的多模态联合事件检测方法，其特征在于，步骤4具体实现如下：
4‑
1.为了获取共享权重和偏置项的事件分类器，将单词和图片动作在公共空间的特征T I m
表示分别作为文本和图片事件分类器的输入，最后通过最小化目标函数L＝L +L+L ，对模型进行联合优化；使文本事件分类器SoftmaxT和图片事件分类器SoftmaxI能够共享权重矩阵和偏置项；从而，在测试阶段，利用共享事件分类器同时预测图片和句子描述的事件类型。

6.根据权利要求5所述的基于图片和句子的多模态联合事件检测方法，其特征在于，步骤5具体实现如下：
2 2
5‑
1.利用ME 多模态标注数据对训练好的模型进行测试，对于包含k个句子S1,S
2...,Sk‑1,Sk和l张图片I1,I
2...,Il‑1,Il的文章，首先利用图片句子匹配模块找出语义相似度＜I←T
I,S＞最高的图片句子对，同时获取基于图片实体的单词特征表示序列H 、以及基于单词T←I
的图片实体特征表示序列H ；
5‑
2.在特征融合时，对于候选触发词wj，认为和对候选触发词wj的事件类型预测贡献不同程度的特征信息；因此利用门控注意力机制为不同的特征信息分配权重，的权值计算方式如下：
其中，表示第j个候选触发词特征向量与其在图片模态中的特征表
示的余弦相似度，值域为[‑1,1]；然后，通过加权平均的方式融合与wj相关的图片特征信息，获取wj对应的多模态特征表示向量
其中，的结果通常为0至1间的数值，控制着对融合后的多模态特征的影响程度；当较小时，融合后的特征保存更多的文本信息，而较大时，说明图片特征对单词wj在事件分类过程中贡献更多的信息；
最后将候选触发词wj对应的多模态特征输入共享事件分类器，从而获取单词wj触发的事件类型
5‑
3.同样，对于图片I，利用另外一个门控注意力控制着单词特征对图片事件分类的影响；首先利用门控注意力机制为图片动作对应的原始特征与其在文本模态的特征表示分别分配权重和其中，的计算方式为：
然后，通过加权平均融合第i个图片实体的原始特征及其在文本模态中的特征表示获取更新后的多模态特征向量最后利用共享事件分类器对进行分类，获取
I
图片描述动作所属的事件类型argmax(P(y|I))。

说明书

技术领域

[0001] 本发明设计事件检测方法，具体来讲是一种基于图片和句子的多模态联合事件检测的方法，属于多模态信息抽取领域。

背景技术

[0002] 随着电脑、手机等现代科技逐渐走入寻常百姓家，参与社交平台互动、浏览新闻网站等行为已成为人们获取网络信息的主要途径，这也极大简化了网民获取信息的流程。随之而来的是消费信息的网络用户不断增加，据中国互联网络信息中心发布的第47次《中国1
互联网络发展状况统计报告》显示，截至2020年12月，中国网民人数达到98900万，相较于去年3月份，网民人数增加了8540万人。因此，每天都会有大量新的信息涌入网络，这些信息通常以文本、图片、音频等多种形式在大众之间进行传播。在面对如此海量且杂乱无章的网络信息时，信息抽取技术能对数据进行处理，并将结构化的信息展示给用户，从而准确地为用户提供有价值、感兴趣的信息。

[0003] 信息抽取是为了从图片、文本或音频中抽取出结构化的信息，进行存储和展示，同时也是构建知识图谱的重要技术手段，通常由命名实体识别、关系抽取和事件抽取三个子任务构成。以文本为例，命名实体识别任务是为了发现描述地缘政治、设施、人名的实体。关系抽取任务的目的是确定两个实体之间的二元语义关系。而事件抽取任务包括事件检测(找出句中的触发词，并确定它们的事件类型)和论元识别(为每个参与事件的实体分配论元角色)两个环节。相比关系抽取，事件抽取任务能够同时抽取多实体间的相互关系，从而获得更加细粒度的结构化信息。因此，事件抽取任务更具挑战性。

[0004] 事件检测是事件抽取任务的重要环节，该环节可以识别出标志着事件发生的图片动作和文本触发词，并将其分类为预定义的事件类型。在网络舆情分析、情报收集等领域有着广泛的应用。

发明内容

[0005] 本发明主要针对于图片或句子等单模态数据提供的信息往往不足以进行正确的事件分类，通常需要借助于其他模态的特征信息。提出了一种基于图片和句子的多模态联合事件检测方法，同时从图片和句子中识别事件。提出的一种基于图片和句子的多模态联合事件检测的方法。

[0006] 基于图片和句子的多模态联合事件检测的方法，按照如下步骤进行：

[0007] 步骤1、文本事件检测模块首先对文本特征进行编码，获取句中单词的特征表示序列对于第j个候选触发词，然后将其对应的特征向量输入文本事件分类器SoftmaxT，获取第j个候选触发词触发的事件类型概率分布，其中，文本事件分类T
器的损失函数定义为L；

[0008] 步骤2、对图片特征进行编码，获取图片中描述动作以及多个实体的特征表示序列然后将图片实体特征向量输入图片事件分类器SoftmaxI，获取I
当前图片描述的事件类型概率分布，其中，图片事件分类器的损失函数定义为L；

[0009] 步骤3、图片句子匹配模块首先利用跨模态注意力机制(Cross‑Modal Attention Mechanism,CMAM)计算每一对图片实体与单词之间的关联权值。根据第j个单词，CMAM能够定位重要的图片实体并分配权重，通过加权平均聚合与单词相关的视觉特征，获取单词在图片模态的特征表示另一方面，对于图片中的第i个实体，首先在待匹配的句子中搜索相关的单词，并为它们分配权重，通过加权平均捕获与图片实体相关的语义信息，从而获取图片实体在文本模态的特征表示然后将每个句子与其在图片模态中的特征表示序T←I I←T列的欧氏距离D 以及图片中所有实体与其在文本模态中的特征表示序列的欧氏距离Dm
进行相加，作为图片和句子的相似度。其中，图片句子匹配模块的损失函数定义为L；

[0010] 步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块，从而获取共享事件分类器；

[0011] 步骤5、在测试阶段，对于多模态文本，首先利用图片句子匹配模块找出相似度最高的图片和句子，并获取第i个图片实体在文本模态的特征表示以及第j个单词在图片模态的特征表示然后利用门控注意力机制为图片实体特征向量和分配权重，通过加权平均获取第i个图片实体对应的多模态特征向量，接着利用共享事件分类器获取图片描述的事件类型。同样，利用另外一个门控注意力机制为和分配权重，通过加权平均获取第j个单词的多模态特征表示，接着利用共享事件分类器获取第j个单词触发的事件类型；

[0012] 进一步的，步骤1具体实现如下：

[0013] 1‑1.在KBP 2017英文数据集上训练文本事件分类器，首先对标注数据进行预处理，获取实体类型、事件触发词、实体关系，其中，一共5种实体类型，18种事件类型，然后利用Stanford CoreNLP对原始文本进行分句、分词，获取词性和句子的语法依存结构。并分别创建词性向量表、实体类型向量表，其中每一种向量表都有类型“空”对应的初始化向量。

[0014] 1‑2.查询预训练的glove词向量矩阵，获取句子中每个词的词向量wemd,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量wentity，每个词的实值向量x＝{wemd,wpos,wentity}，因此句子实值向量序列表示为W＝{x1,x2,...,xn‑1,xn},其中n是句子的长度。

[0015] 1‑3.将句子实值向量序列W＝{x1,x2,...,xn‑1,xn}作为Bi‑LSTMs的输入，获取句子的隐含状态向量序列构建基于句子语法依存结构的图卷积网络，L
接着将H输入GCNs中，获取句子的卷积向量序列最后利用注意力
T
计算序列H 中的每个元素对候选触发词的影响权重，从而获取句子的编码序列T
同时将C作为单词序列在公共空间的特征表示序列。

[0016] 1‑4.将句子中的每个单词视为候选触发词，对于第j(j≤n)个候选触发词，然后将其对应的特征向量输入文本事件分类器:

[0017]

[0018]

[0019] 其中，WT和bT作为文本事件分类器SoftmaxT的权重矩阵和偏置项, 表示句子S中第j个候选触发词wj触发的事件类型概率分布，而typew,j表示wj触发的事件类型。同时，文本事件分类器的损失函数定义为：

[0020]

[0021] 其中，T是KBP 2017英文数据集中标注的句子数量，作为单词wj标注的事件类型，Si表示数据集中第i个句子，句子长度为n。

[0022] 进一步的，步骤2具体实现如下：

[0023] 2‑1.在imSitu图片数据集上训练图片事件分类器，其中，一共定义了504个动词记录图片描述的动作，以及11538种实体类型描述图片中出现的实体。首先利用VGG16v去提取图片中的动作特征，并利用多层感知机MLPv将动词特征转换成动词向量同时，利用另外一个VGG16o提取图片中的实体集合O＝{o1,o2,...,om‑1,om}，然后通过多层感知机MLPo将所有实体转换成它们对应的名词向量序列然后用网状结构表示每张图片，根据其描述的动作和实体构建网状结构。其中，图片描述的动作作为网状结构的中心节点，同时将实体与动作节点进行连接。接着采用图卷积网络对图片特征对应的单词向量序列进行编码，从而使得动作节点卷积计算后的向量保存实体特征信息。其中，编码后的图片实体特征向量序列为其中，用来表示图片动作节点的卷积向量
I
(为了方便计算，本发明将图片动作视为一个图片实体)，同样，H被视图片动作以及实体集合在公共空间的特征表示序列。

[0024] 2‑2.将图片I中动作卷积向量作为图片事件分类器的输入，获取图片描述事件类型的概率分布为：

[0025]

[0026] typeI＝arg max(P(yI|I)) (5)

[0027] 其中，WI和bI作为图片事件分类器SoftmaxI的权重矩阵和偏置项,P(yI|I)表示图片I触发的事件类型概率分布，而typeI表示图片I中描述的事件类型。同时，图片事件分类器的损失函数定义为：

[0028]

[0029] 其中，N代表着imSitu中图片标注事件样例的个数，yI作为图片Ii标注的事件类型，Ii表示图片数据集中第i个图片样例。

[0030] 进一步的，步骤3具体实现如下：

[0031] 3‑1.图片句子匹配模块是为了从包含多张图片和多个句子的多模态文档中找出语义相似度最高的图片和句子。首先利用跨模态注意力机制计算每一对图片实体与单词之间的关联权值，学习基于单词的图片实体特征表示和基于图片实体的单词特征表示。更具体地说，根据每个单词，CMAM能够定位重要的图片实体并分配权重，通过加权平均聚合与单词相关的视觉特征，获取单词在图片模态的特征表示。另一方面，对于图片中的每个实体，首先在待匹配的句子中搜索相关的单词，并为它们分配权重，通过加权平均捕获与图片实体相关的语义信息，从而获取图片实体在文本模态的特征表示。给出图片I对应的实体特征向量序列以及句子S的单词特征向量序列首先利用跨模态注意力机制获取单词和图片实体在其他模态的特征表示。

[0032] 3‑2.为了获取基于单词的图片实体特征表示，首先利用跨模态注意力机制计算图片中第i个实体与第j单词的关联程度Scoreij：

[0033]

[0034]

[0035] 其中，cos 表示图片中第i个实体的特征向量与第j单词的特征能量的余弦相似度，值域为[0,1]。然后根据Scoreij计算第i个图片实体对第j单词的影响权重Aij为：

[0036]

[0037] 最后，通过加权平均的方式聚合基于第j个单词的图片实体特征表示因此，本发明用表示整个句子在图片
模态的特征表示序列。

[0038] 3‑3.为了获得基于图片实体的单词特征表示，采用和获取向量相同的计算过程，对于图片中第i个实体，根据第j个单词与当前图片实体的相关性，为第j个单词分配注意力权重：

[0039]

[0040]

[0041] 然后，通过加权平均捕获基于图片第i个实体的单词特征表示:

[0042]

[0043] 同样，图片中所有实体在文本模态的表示为：

[0044]

[0045] 3‑4.为了获取图片与句子的语义相似度，采用弱一致性的对齐方式，将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离，以及每个句子与其在图片模态中的特征表示序列的欧氏距离之和。

[0046] 首先，计算每个句子与其在图片模态中的特征表示序列的欧氏距离：

[0047]

[0048] 然后图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为：

[0049]

[0050] 因此，图片I和句子S的语义相似度定义为＜I,S＞＝DT←I+DI←T。最后，为了获取语义相似度最高的图片句子对＜I,S＞，然后使用triplet loss优化图片句子匹配模块。对于‑每一对正确匹配的图片和句子，本发明额外抽取一个与句子S不匹配的图片I ，以及一个与‑ ‑ ‑
图片I不匹配的句子S ，构成两个否定对＜I,S ＞和＜I ,S＞。最后图片句子匹配模块的损失函数定义为：

[0051] Lm＝max(0,1+＜I,S＞‑＜I,S‑＞)+max(0,1+＜I,S＞‑＜I‑,S＞) (16)[0052] 进一步的，步骤4具体实现如下：

[0053] 4‑1.为了获取共享权重和偏置项的事件分类器，本发明将单词和图片动作在公共T空间的特征表示分别作为文本和图片事件分类器的输入，最后通过最小化目标函数L＝L +I m
L+L ，对模型进行联合优化。使文本事件分类器SoftmaxT和图片事件分类器SoftmaxI能够共享权重矩阵和偏置项。从而，在测试阶段，利用共享事件分类器同时预测图片和句子描述的事件类型。

[0054] 进一步的，步骤5具体实现如下：

[0055] 5‑1.利用M2E2多模态标注数据对训练好的模型进行测试，对于包含k个句子S1,S2...,Sk‑1,Sk和l张图片I1,I2...,Il‑1,Il的文章，首先利用图片句子匹配模块找出语义相似I←T度最高的图片句子对＜I,S＞，同时获取基于图片实体的单词特征表示序列H 、以及基于T←I
单词的图片实体特征表示序列H 。

[0056] 5‑2.在特征融合时，对于单词wj，本发明认为和对触发词wj的事件类型预测贡献不同程度的特征信息。因此，本发明利用门控注意力机制为不同的特征信息分配权重，的权值计算方式如下：

[0057]

[0058]

[0059] 其中，表示第j个单词特征向量与其在图片模态中的特征表示的余弦相似度，值域为[‑1,1]。然后，通过加权平均的方式融合与wj相关的图片特征信息，获取wj对应的多模态特征表示向量

[0060]

[0061] 其中，的结果通常为0至1间的数值，控制着对融合后的多模态特征的影响程度。当较小时，融合后的特征保存更多的文本信息，而较大时，说明图片特征对单词wj在事件分类过程中贡献更多的信息。

[0062] 最后将候选触发词wj对应的多模态特征输入共享事件分类器，从而获取单词wj触发的事件类型arg

[0063] 5‑3.同样，对于图片I，利用另外一个门控注意力控制着单词特征对图片事件分类的影响。首先利用门控注意力机制为图片动作对应的原始特征与其在文本模态的特征表示分配权重和其中，的计算方式为：

[0064]

[0065] 然后，通过加权平均融合第i个图片实体的原始特征及其在文本模态中的特征表示获取更新后的多模态特征向量最后利用共享事件分类器对进行分类，I获取图片描述动作所属的事件类型argmax(P(y|I))。

[0066] 本发明有益效果如下：

[0067] 针对现有技术的不足，提出了一种基于图片和句子的多模态联合事件检测方法，同时从图片和句子中识别事件。但是，由于缺少足够的多模态标注数据，本发明采用联合优化的方式，一方面利用现有的单模态数据集(imSitu图片数据集和KBP 2017英文数据集)分别学习图片和文本事件分类器，另一方面，利用已有的图片与标题对训练图片句子匹配模块，找出多模态文章中语义相似度最高的图片和句子，从而获取图片实体和单词在公共空间的特征表示。这些特征有助于图片和文本事件分类器之间共享参数，得到共享事件分类2 2
器。最后，利用少量的多模态标注数据(ME多模态数据集)对模型进行测试，利用共享事件分类器分别获取图片和句子描述的事件及其类型。本发明从图片和句子中识别事件,利用视觉特征和文本特征的互补性，不仅提高了单模态事件分类的性能，而且可以发现文章中更完整的事件信息。

实施方案

[0070] 附图非限制性地公开了本发明所涉及优选实例的流程示意图；以下将结合附图详细地说明本发明的技术方案。

[0071] 事件检测是事件抽取任务的重要环节，该环节可以识别出标志着事件发生的图片动作和文本触发词，并将其分类为预定义的事件类型。在网络舆情分析、情报收集等领域有着广泛的应用。随着传播网络信息的载体越来越多样化，研究人员开始关注不同领域的事件检测任务，即如何自动的从非结构化的图片、文本等不同的信息载体中获取感兴趣的事件。并且，同一个事件可能以不同的形式出现在图片和句子中。但现有的模型要么只针对基于句子或图片的单模态事件检测，要么只考虑图片特征对文本事件检测的影响，忽略了文本语境对图片事件分类的影响。针对上述问题，本发明提出了基于图片和句子的多模态联合事件检测方法。

[0072] 如图1‑2所示，一种基于图片和句子的多模态联合事件检测的方法，按照如下步骤进行：

[0073] 步骤1、文本事件检测模块首先对文本特征进行编码，获取句中单词的特征表示序列对于第j个候选触发词，然后将其对应的特征向量输入文本事件分类器SoftmaxT，获取第j个候选触发词触发的事件类型概率分布，其中，文本事件分类T
器的损失函数定义为L；

[0074] 步骤2、对图片特征进行编码，获取图片中描述动作以及多个实体的特征表示序列然后将图片实体特征向量输入图片事件分类器SoftmaxI，获取I
当前图片描述的事件类型概率分布，其中，图片事件分类器的损失函数定义为L；

[0075] 步骤3、图片句子匹配模块首先利用跨模态注意力机制(Cross‑ModalAttentionMechanism,CMAM)计算每一对图片实体与单词之间的关联权值。根据第j个单词，CMAM能够定位重要的图片实体并分配权重，通过加权平均聚合与单词相关的视觉特征，获取单词在图片模态的特征表示另一方面，对于图片中的第i个实体，首先在待匹配的句子中搜索相关的单词，并为它们分配权重，通过加权平均捕获与图片实体相关的语义信息，从而获取图片实体在文本模态的特征表示然后将每个句子与其在图片模态中的特征表示序列T←I I←T的欧氏距离D 以及图片中所有实体与其在文本模态中的特征表示序列的欧氏距离D 进m
行相加，作为图片和句子的相似度。其中，图片句子匹配模块的损失函数定义为L；

[0076] 步骤4、通过联合优化文本事件检测模块、图片事件检测模块以及图片句子匹配模块，从而获取共享事件分类器；

[0077] 步骤5、在测试阶段，对于多模态文本，首先利用图片句子匹配模块找出相似度最高的图片和句子，并获取第i个图片实体在文本模态的特征表示以及第j个单词在图片模态的特征表示然后利用门控注意力机制为图片实体特征向量和分配权重，通过加权平均获取第i个图片实体对应的多模态特征向量，接着利用共享事件分类器获取图片描述的事件类型。同样，利用另外一个门控注意力机制为和分配权重，通过加权平均获取第j个单词的多模态特征表示，接着利用共享事件分类器获取第j个单词触发的事件类型；

[0078] 进一步的，步骤1具体实现如下：

[0079] 1‑1.在KBP 2017英文数据集上训练文本事件分类器，首先对标注数据进行预处理，获取实体类型、事件触发词、实体关系，其中，一共5种实体类型，18种事件类型，然后利用Stanford CoreNLP对原始文本进行分句、分词，获取词性和句子的语法依存结构。并分别创建词性向量表、实体类型向量表，其中每一种向量表都有类型“空”对应的初始化向量。

[0080] 1‑2.查询预训练的glove词向量矩阵，获取句子中每个词的词向量wemd,然后查询词性向量表得到词性向量wpos和查询实体类型向量表得到实体类型向量wentity，每个词的实值向量x＝{wemd,wpos,wentity}，因此句子实值向量序列表示为W＝{x1,x2,...,xn‑1,xn},其中n是句子的长度。

[0081] 1‑3.将句子实值向量序列W＝{x1,x2,...,xn‑1,xn}作为Bi‑LSTMs的输入，获取句子的隐含状态向量序列构建基于句子语法依存结构的图卷积网络，接着L
将H输入GCNs中，获取句子的卷积向量序列最后利用注意力计算序列
T
H中的每个元素对候选触发词的影响权重，从而获取句子的编码序列
T
同时将C作为单词序列在公共空间的特征表示序列。

[0082] 1‑4.将句子中的每个单词视为候选触发词，对于第j(j≤n)个候选触发词，然后将其对应的特征向量输入文本事件分类器:

[0083]

[0084]T T

[0085] 其中，W 和b作为文本事件分类器SoftmaxT的权重矩阵和偏置项, 表示句子S中第j个候选触发词wj触发的事件类型概率分布，而typew,j表示wj触发的事件类型。同时，文本事件分类器的损失函数定义为：

[0086]

[0087] 其中，T是KBP 2017英文数据集中标注的句子数量，作为单词wj标注的事件类型，Si表示数据集中第i个句子，句子长度为n。

[0088] 进一步的，步骤2具体实现如下：

[0089] 2‑1.在imSitu图片数据集上训练图片事件分类器，其中，一共定义了504个动词记录图片描述的动作，以及11538种实体类型描述图片中出现的实体。首先利用VGG16v去提取图片中的动作特征，并利用多层感知机MLPv将动词特征转换成动词向量同时，利用另外一个VGG16o提取图片中的实体集合O＝{o1,o2,...,om‑1,om}，然后通过多层感知机MLPo将所有实体转换成它们对应的名词向量序列然后用网状结构表示每张图片，根据其描述的动作和实体构建网状结构。其中，图片描述的动作作为网状结构的中心节点，同时将实体与动作节点进行连接。接着采用图卷积网络对图片特征对应的单词向量序列进行编码，从而使得动作节点卷积计算后的向量保存实体特征信息。其中，编码后的图片实体特征向量序列为其中，用来表示图片动作节点的卷积向量
I
(为了方便计算，本发明将图片动作视为一个图片实体)，同样，H被视图片动作以及实体集合在公共空间的特征表示序列。

[0090] 2‑2.将图片I中动作卷积向量作为图片事件分类器的输入，获取图片描述事件类型的概率分布为：

[0091]

[0092] typeI＝argmax(P(yI|I))

[0093] 其中，WI和bI作为图片事件分类器SoftmaxI的权重矩阵和偏置项,P(yI|I)表示图片I触发的事件类型概率分布，而typeI表示图片I中描述的事件类型。同时，图片事件分类器的损失函数定义为：

[0094]

[0095] 其中，N代表着imSitu中图片标注事件样例的个数，yI作为图片Ii标注的事件类型，Ii表示图片数据集中第i个图片样例。

[0096] 进一步的，步骤3具体实现如下：

[0097] 3‑1.图片句子匹配模块是为了从包含多张图片和多个句子的多模态文档中找出语义相似度最高的图片和句子。首先利用跨模态注意力机制计算每一对图片实体与单词之间的关联权值，学习基于单词的图片实体特征表示和基于图片实体的单词特征表示。更具体地说，根据每个单词，CMAM能够定位重要的图片实体并分配权重，通过加权平均聚合与单词相关的视觉特征，获取单词在图片模态的特征表示。另一方面，对于图片中的每个实体，首先在待匹配的句子中搜索相关的单词，并为它们分配权重，通过加权平均捕获与图片实体相关的语义信息，从而获取图片实体在文本模态的特征表示。给出图片I对应的实体特征向量序列以及句子S的单词特征向量序列首先利用跨模态注意力机制获取单词和图片实体在其他模态的特征表示。

[0098] 3‑2.为了获取基于单词的图片实体特征表示，首先利用跨模态注意力机制计算图片中第i个实体与第j单词的关联程度Scoreij：

[0099]

[0100]

[0101] 其中，cos 表示图片中第i个实体的特征向量与第j单词的特征能量的余弦相似度，值域为[0,1]。然后根据Scoreij计算第i个图片实体对第j单词的影响权重Aij为：

[0102]

[0103] 最后，通过加权平均的方式聚合基于第j个单词的图片实体特征表示因此，本发明用表示整个句子在图片模态的特征表示序
列。

[0104] 3‑3.为了获得基于图片实体的单词特征表示，采用和获取向量相同的计算过程，对于图片中第i个实体，根据第j个单词与当前图片实体的相关性，为第j个单词分配注意力权重：

[0105]

[0106]

[0107] 然后，通过加权平均捕获基于图片第i个实体的单词特征表示同样，图片中所有实体在文本模态的表示为：

[0108] 3‑4.为了获取图片与句子的语义相似度，采用弱一致性的对齐方式，将图片和句子的相似度定义为图片中所有实体与其在文本模态中的特征表示序列的欧氏距离，以及每个句子与其在图片模态中的特征表示序列的欧氏距离之和。

[0109] 首先，计算每个句子与其在图片模态中的特征表示序列的欧氏距离：

[0110]

[0111] 然后图片中所有实体与其在文本模态中的特征表示序列的欧氏距离为：

[0112]

[0113] 因此，图片I和句子S的语义相似度定义为＜I,S＞＝DT←I+DI←T。最后，为了获取语义相似度最高的图片句子对＜I,S＞，然后使用triplet loss优化图片句子匹配模块。对于‑每一对正确匹配的图片和句子，本发明额外抽取一个与句子S不匹配的图片I ，以及一个与‑ ‑ ‑
图片I不匹配的句子S ，构成两个否定对＜I,S ＞和＜I ,S＞。最后图片句子匹配模块的损失函数定义为：

[0114] Lm＝max(0,1+＜I,S＞‑＜I,S‑＞)+max(0,1+＜I,S＞‑＜I‑,S＞)

[0115] 进一步的，步骤4具体实现如下：

[0116] 4‑1.为了获取共享权重和偏置项的事件分类器，本发明将单词和图片动作在公共T空间的特征表示分别作为文本和图片事件分类器的输入，最后通过最小化目标函数L＝L +I m
L+L ，对模型进行联合优化。使文本事件分类器SoftmaxT和图片事件分类器SoftmaxI能够共享权重矩阵和偏置项。从而，在测试阶段，利用共享事件分类器同时预测图片和句子描述的事件类型。

[0117] 进一步的，步骤5具体实现如下：

[0118] 5‑1.利用M2E2多模态标注数据对训练好的模型进行测试，对于包含k个句子S1,S2...,Sk‑1,Sk和l张图片I1,I2...,Il‑1,Il的文章，首先利用图片句子匹配模块找出语义相似I←T度最高的图片句子对＜I,S＞，同时获取基于图片实体的单词特征表示序列H 、以及基于T←I
单词的图片实体特征表示序列H 。

[0119] 5‑2.在特征融合时，对于单词wj，本发明认为和对触发词wj的事件类型预测贡献不同程度的特征信息。因此，本发明利用门控注意力机制为不同的特征信息分配权重，的权值计算方式如下：

[0120]

[0121]

[0122] 其中，表示第j个单词特征向量与其在图片模态中的特征表示的余弦相似度，值域为[‑1,1]。然后，通过加权平均的方式融合与wj相关的图片特征信息，获取wj对应的多模态特征表示向量

[0123]

[0124] 其中，的结果通常为0至1间的数值，控制着对融合后的多模态特征的影响程度。当较小时，融合后的特征保存更多的文本信息，而较大时，说明图片特征对单词wj在事件分类过程中贡献更多的信息。

[0125] 最后将候选触发词wj对应的多模态特征输入共享事件分类器，从而获取单词wj触发的事件类型arg

[0126] 5‑3.同样，对于图片I，利用另外一个门控注意力控制着单词特征对图片事件分类的影响。首先利用门控注意力机制为图片动作对应的原始特征与其在文本模态的特征表示分配权重和其中，的计算方式为：

[0127]

[0128] 然后，通过加权平均融合第i个图片实体的原始特征及其在文本模态中的特征表示获取更新后的多模态特征向量最后利用共享事件分类器对进行分类，I获取图片描述动作所属的事件类型argmax(P(y|I))。

附图说明

[0068] 图1是本发明的整体实施流程图。

[0069] 图2是本发明模型训练阶段的结构图

1基于图片和句子的多模态联合事件检测方法 2基于多粒度融合模型的中文句子语义智能匹配方法及装置