[0010] 本发明的目的是针对现有技术的不足,提供一种基于注意力机制的场景图生成方法。本发明主要包含两点:
[0011] 1、将目标上下文信息和关系上下文信息的特征同时进行建模,充分发掘上下文的信息,并引入相对空间关系特征,得到更有效的上下文信息。
[0012] 2、提出深层的关系注意力方法,将网络通过深度堆叠来更好的对上下文信息进行充分建模,充分理解场景图的上下文信息和目标相关性,得到包含目标上下文信息和关系上下文信息的有效表达。
[0013] 本发明解决其技术问题所采用的技术方案包括如下步骤:
[0014] 步骤(1)、数据集的预处理及划分
[0015] 首先对数据集中的图像进行预处理,然后划分数据集;
[0016] 步骤(2):使用训练好的目标检测网络(Faster RCNN)对预处理后的数据集中图像提取特征;
[0017] 对于一张输入图像,使用训练好的目标检测网络计算出图像中包含物体的m个候选框;针对每一个候选框,将该候选框在图像中对应的区域输入到目标检测网络中,并提取目标检测网络中某一层的输出作为该候选框的视觉特征 将一张图像中所有候选框的特征拼接成总体视觉特征 表示自然实数集,dv代表候选框的特征维
度;
[0018] 步骤(3):构建候选框的空间特征
[0019] 针对每张图像,根据步骤(2)中得到的m个候选框来计算每个候选框的空间特征将每张图像中所有候选框的空间特征拼接成总空间特征为 ds代表候选框的特征维度;
[0020] 步骤(4):构建候选框的语言特征
[0021] 根据预先训练好的词向量模型,将候选框对应的分类转换为包含语义信息的词向量 也就是将离散的候选框的分类转换为连续语言特征,将每张图像中的所有候选框的语言特征拼接成总语言特征为
[0022] 步骤(5):构建相对关系特征
[0023] 根据图像中的任意两个候选框生成相对关系特征 将一张图像中所有的候选框都构建成总相对关系特征为
[0024] 步骤(6):构建深度神经网络
[0025] 将图像的视觉特征V、位置特征S、语言特征L拼接成最终的图像特征将该图像特征输入到深度神经网络,结合相对关系特征F,根据自注意
力机制将图像特征和相对关系特征F一起映射到隐藏特征空间,产生特征向量
最后将图像特征Z输入到全连接函数及激活函数中,输出的预测值是m个候选框的分类分数向量 同时预测m×m对候选框之间的关系分类分数向量
[0026] 步骤(7):损失函数
[0027] 将步骤(6)中输出的两个预测的分类分数向量和关系分类分数向量分别同对应的标签向量一起输入到相应的损失函数中,并分别输出两个损失值;
[0028] 所述的标签向量是步骤(1)数据集自带;
[0029] 步骤(8):训练深度神经网络模型
[0030] 根据步骤(7)中的损失函数产生的损失值,利用反向传播算法对步骤(6)中构建的深度神经网络的模型参数进行梯度回传,不断优化,直至整个网络模型收敛;
[0031] 步骤(9):深度神经网络模预测值计算
[0032] 将候选框的分类分数向量进行排序,选择最高分数对应的分类作为其预测分类;将候选框的关系分类分数向量进行排序,选择最高分数对应的关系作为其关系分类。
[0033] 进一步的,步骤(1)具体实现如下:
[0034] 剔除一些低质量的图片数据,并且使用最常见的150个目标类别和50个关系类别;还有数据集的划分,将数据集中70%的数据用于训练,剩下的30%用于测试。
[0035] 进一步的,步骤(2)所述的用目标检测网络对图像提取特征,具体如下:
[0036] 提取目标检测网络中某一层的输出作为该候选框的特征 每张图像选取m个候选框,将图像中所有的候选框拼接成总体视觉特征 具体公式如下:
[0037] V=[v1,v2,...,vi,...,vm] (公式1)。
[0038] 进一步的,步骤(3)所述的构建目标的空间特征,具体如下:
[0039] 每个候选框的空间位置坐标为(xmin,ymin,xmax,ymax),(xmin,ymin)表示候选框的左上角点的位置坐标,(xmax,ymax)表示候选框的右下角点的位置坐标,每个候选框的空间特征s公式如下:
[0040]
[0041] 其中,W、H表示图像的宽和高;w、h表示对应的候选框的宽和高;
[0042] 将一张图像中的所有候选框的空间特征拼接成总体空间特征 具体公式如下:
[0043] S=[s1,s2,...,si,...,sm] (公式3)。
[0044] 进一步的,步骤(4)所述的构建目标的语言特征,具体如下:
[0045] 根据预先训练好的词向量模型,将候选框对应的分类转换为包含语义信息的词向量 每张图像中的所有候选框的语言特征拼接成总语言特征为 具体公式如下:
[0046] L=[l1,l2,...,li,...,lm] (公式4)。
[0047] 进一步的,步骤(5)所述的构建相对关系特征,具体如下:
[0048] 由于候选框的空间特征建模了单个候选框的位置信息,因此通过任意两个候选框之间的相对位置信息进行建模生成关系特征 将第i个候选框的空间位置定义为(xi,yi,wi,hi),该四维坐标分别表示候选框的中心点横坐标、纵坐标、宽、高;第i个候选框和第j个候选框之间的关系特征定义为:
[0049]
[0050] 将图像中的所有候选框的关系特征拼接成总关系特征为 具体公式如下:
[0051]
[0052] 进一步的,步骤(6)所述的构建深度神经网络,具体如下:
[0053] 6‑1.融合视觉特征、空间特征、语言特征;
[0054] 视觉特征V、空间特征S、语言特征L是候选框的多种角度的特征,它们自然对齐所以方便融合;将空间特征S、语言特征L先经过全连接层转换到和视觉特征V一样的维度,然后三种特征拼接后的融合特征 公式如下:
[0055] Z=[V,S,L] (公式7)
[0056] 6‑2.构建关系自注意力网络(RSA)
[0057] 融合特征Z经过全连接映射转化为融合特征向量 公式如下:
[0058] X=Linear(Z) (公式8)
[0059] 将为融合特征向量X和关系特征F作为关系自注意力网络RSA的输入,输出特征向量
[0060] B′=LN(X+RMHA(X,X,X,F)) (公式9)
[0061] B=LN(B′+FFN(B′)) (公式10)
[0062] 其中,RMHA的输入是融合特征向量X和关系特征F,输出是富含上下文信息特征向量 公式如下:
[0063] Q=Linear(X) (公式11)
[0064] K=Linear(X) (公式12)
[0065] V=Linear(X)(公式13)
[0066]
[0067] 其中Q 、K、V分 别由 融合特 征Z经过全 连接层映射 得到 ,其中 ,‑6
φ(F)=log(MLP(F)+∈),∈=1e ,MLP是两层感知
机,ReLU是激活函数;
[0068] 其中,FFN结构,输入是上下文信息特征向量B′,公式如下:
[0069] FFN(B′)=FCd(Drop(ReLU(FC4d(B′)))) (公式15)
[0070] 其中,LN是归一化函数;
[0071] 6‑3.深度堆叠RSA网络
[0072] 以融合特征Z和关系特征F作为深度堆叠RSA网络
[0073] [RSA(1),RSA(2),...,RSA(N)]的输入;将第n层RSA(n)的输出特征Z(n)和关系特征F作(n+1)为第n+1层RSA 的输入,迭代往复,公式如下:
[0074] Z(n)=RSA(n)(Z(n‑1),F) (公式16)
[0075] 其中,Z(0)=Z,对不同层的RSA,关系特征F保持不变;
[0076] 6‑4.候选框分类优化
[0077] 将输出特征Z(n)经过全连接层映射到分类分数向量 c代表选框的分类数目,公式如下:
[0078] O=Linear(Z(n)) (公式17)
[0079] 6‑5.多头注意力关系预测
[0080] 将输出特征Z(n)作为输入,经过全连接层映射输出单头pj,公式如下:
[0081] pj=Linear(Z(n))Linear(Z(n))T (公式18)
[0082] 将输出特征Z(n)和关系特征F作为多头注意力关系预测器的输入,关系分类分数向量 作为其输出,r代表关系分类数目,公式如下:
[0083] P=([p1,p2,..,pj,...,phead]+MLP(F))Wr (公式19)
[0084] 其中,head代表注意力头的数目,MLP代表二层感知机,
[0085] 进一步的,步骤(7)所述的损失函数,具体如下:
[0086] 7‑1.计算候选框预测分类分数oi与真实标签oi*之间的差距,使用交叉熵计算如下:
[0087]
[0088] 7‑2.计算候选框的预测关系分类分数与标签向量中真实值之间的差距,使用交叉熵计算如下:
[0089]
[0090] 7‑3.深度神经网络的总损失,具体公式如下:
[0091] Loss=Lossobj+λLossrel(公式23)
[0092] 本发明有益效果如下:
[0093] 本发明核心方法为提出深层关系自注意力网络(RSAN),用来对目标上下文信息和目标间的关系上下文信息的有效建模,并在场景图生成这一深度学习任务中验证该模型的优越性。本方法首次提出在对目标上下文信息和目标间关系上下文信息进行建模,由此得到的上下文信息不仅获得了目标间的上下文信息,同时建立了关系间的上下文信息的深层次理解和交互。在RSAN模型表现优异的前提下,本发明进一步地提出深度关系自注意力机制的方法,该方法将自注意力机制延伸到场景图生成,不再局限于机器翻译等应用。实验中将图像的目标特征和相对关系特征输入RSAN模型,在RSAN模型中完成了目标和关系上下文信息的深层理解和交互,进而得到了更好的实验结果,这证明了该方法的普适通用性,可在其他关系推理的任务中充分发挥价值。
[0094] 本发明所提出的一种算法,尤其是用于同时建模目标上下文和关系上下文的RSAN网络在场景图生成的任务上取得了显著性的提升效果,超越了该任务上的大部分主流方法。并且本发明的RSAN网络在其他跨模态相关领域中如图像内容问答和视觉关系检测中也具有十分重要的应用价值和巨大的潜力。