首页 > 专利 > 杭州电子科技大学 > 一种基于多层次语义胶囊路由的反讽检测方法专利详情

一种基于多层次语义胶囊路由的反讽检测方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2020-03-03
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2020-09-01
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2020-12-15
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2040-03-03
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202010141031.4 申请日 2020-03-03
公开/公告号 CN111507101B 公开/公告日 2020-12-15
授权日 2020-12-15 预估到期日 2040-03-03
申请年 2020年 公开/公告年 2020年
缴费截止日
分类号 G06F40/289G06F40/30G06F16/33G06F16/35G06K9/62G06N3/04G06N3/08 主分类号 G06F40/289
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 6
权利要求数量 7 非专利引证数量 1
引用专利数量 1 被引证专利数量 0
非专利引证 1、2020.02.18任智慧 等.“基于LSTM网络的序列标注中文分词法”《.计算机应用研究》.2016,第34卷(第5期),1321-1324. Jianfeng Zhao 等“.Speech emotionrecognition using deep 1D & 2D CNN LSTMnetworks”《. Biomedical Signal Processingand Control》.2019,第14卷(第5期),1-2.;
引用专利 US10565305B 被引证专利
专利权维持 2 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 姜明、吴俊磊、张旻、汤景凡 第一发明人 姜明
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 4
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明公开了一种基于多层次语义胶囊路由的反讽检测方法。本发明步骤:使用GloVe对网络评论和上下文进行词向量嵌入,分别获得网络评论和上下文的文本特征;并将文本特征输入到Transformer模型中进行向量的转换,分别获得网络评论和上下文的隐藏层特征;通过CNN把网络评论的隐藏层特征转化为网络评论的池化特征;把池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅰ;把网络评论的隐藏层特征与SenticNet中获得的情感权重相结合,获得新的隐藏层特征Ⅱ;把隐藏层特征Ⅰ和Ⅱ作为低层次的语义胶囊,进行EM路由获得高层次的语义胶囊;最后把高层次的语义胶囊通过SoftMax函数获得最后的分类结果。本发明有效解决了反讽检测分类效果不佳等问题。
  • 摘要附图
    一种基于多层次语义胶囊路由的反讽检测方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-12-15 授权
2 2020-09-01 实质审查的生效 IPC(主分类): G06F 40/289 专利申请号: 202010141031.4 申请日: 2020.03.03
3 2020-08-07 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于多层次语义胶囊路由的反讽检测方法,其特征在于包括如下步骤:
步骤(1)使用GloVe对网络评论和上下文进行词向量嵌入,分别获得网络评论的文本特征和上下文的文本特征;
步骤(2)分别将网络评论和上下文的文本特征输入到Transformer模型中进行向量的转换,分别获得网络评论的隐藏层特征和上下文的隐藏层特征;
步骤(3)通过CNN把网络评论的隐藏层特征转化为网络评论的池化特征;
步骤(4)把池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅰ;
步骤(5)把网络评论的隐藏层特征与SenticNet中获得的情感权重相结合,获得新的隐藏层特征Ⅱ;
步骤(6)把隐藏层特征Ⅰ和Ⅱ作为低层次的语义胶囊,进行EM路由获得高层次的语义胶囊;
步骤(7)最后把高层次的语义胶囊通过SoftMax函数获得最后的分类结果。

2.根据权利要求1所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(1)具体:使用glove.840B.300d的词向量文件把SARC数据集中的网络评论和上下文进行词向量嵌入,获得一个维度为300维的词向量矩阵。

3.根据权利要求2所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(3)中,利用CNN网络模型对步骤(2)获得的网络评论的隐藏层特征进行Max-pooling操作,获得网络评论的池化特征。

4.根据权利要求3所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(4)所述的把网络评论的池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅰ,具体实现如下:
4-
1.使用网络评论的池化特征对上下文的隐藏层特征进行词向量的偏移,具体:使用缩放点积的注意力机制,将注意力机制描述为将query和key映射到单词级别的权重上;
query包括上下文的隐藏层特征的平均向量qC,以及网络评论的池化特征的平均向量qS,通过可训练的参数转化为dk维:
key包括上下文的隐藏层特征和网络评论的池化特征,通过可训练的参数转化为dk维:
其中, 是上下文的隐藏层特征, 是网络评论的池化特征,它们的向量维度都是2dl;
的向量维度是2dl*dk;
4-
2.网络评论和上下文的交互注意力权重计算如下:
为了确保 的每个维度之间的参数差距比较大,引入 作为比例因子;
4-
3.根据公式(12)获得新的隐藏层特征I;

5.根据权利要求4所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(5)把池化特征与SenticNet中获得的情感权重相结合,获得新的隐藏层特征II,具体如下:
使用SenticNet获得网络评论中每个单词对应的情感权重,然后使用注意力机制把网络评论的情感权重与步骤(2)中获得的网络评论的隐藏层特征进行权重偏移,获得新的隐藏层特征II。

6.根据权利要求5所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于步骤(6):把步骤(4)和步骤(5)的输出的隐藏层特征I和隐藏层特征II作为输入,创建低层次的语义胶囊;低层次的语义胶囊i包含激活概率和高层次输出两个部分;为了获得高层次的语义胶囊j,对低层次的语义胶囊i进行EM路由,它的具体过程实现如下:
6-
1.首先利用公式(13)、公式(14)和公式(15)计算出低层次语义胶囊i到高层次语义胶囊j的均值和方差:
Voteij=GiWij#   (13)
其中,权重矩阵Wij是可训练的参数;Gi表示低层次的语义胶囊i的高层次输出,它是可训练的参数,它的初始值是低层次语义胶囊的输入;Rij表示低层次的语义胶囊i到高层次的语义胶囊j的分配概率; 表示低层次语义胶囊i到高层次的语义胶囊j的输出d维的均值;
表示低层次语义胶囊i到高层次的语义胶囊j的d维的方差;
6-
2.根据步骤6-1计算出的低层次的语义胶囊i到高层次的语义胶囊j的均值和方差来计算分配概率;低层次的语义胶囊i到高层次的语义胶囊j的概率密度如公式(16)所示:
其次,低层次的语义胶囊i到高层次的语义胶囊j的分配概率如公式(17):
最后,根据分配概率来更新低层次语义胶囊j的高层次输出;
6-
3.根据低层次语义胶囊i到高层次的语义胶囊j的均值和方差,使用公式(17)和公式(18)来计算低层次语义胶囊i到高层次语义胶囊j的激活概率:
其中,βu和βv都是可训练的参数;λ是一个固定值,被设置为1e-3;aj是低层次语义胶囊i到高层次的语义胶囊j的激活概率。

7.根据权利要求6所述的一种基于多层次语义胶囊路由的反讽检测方法,其特征在于对低层次的语义胶囊i进行EM路由,获得高层次的语义胶囊j,整体流程如下:
①设置低层次的语义胶囊i到高层次的语义胶囊j的分配概率的初始值为: J表示高层次的语义胶囊j的数量;
②计算上下文的低层次的语义胶囊i的激活概率为: 其中ai中的i表
示低层次语义胶囊i, 中的i表示网络评论中的单词;
③计算网络评论的低层次的语义胶囊i的激活概率为: 这里i
的含义与步骤②一致;
④对下面的公式(20)和公式(21)分别重复进行r次迭代:
其中公式(20)的具体实现流程如下:
(1)根据低层次语义胶囊i到高层次语义胶囊j的激活概率,来更新低层次的语义胶囊i到高层次的语义胶囊j的分配概率:R′ij=Rij*ai,其中i和j分别表示低层次语义胶囊和高层次语义胶囊;
(2)根据公式(13)、(14)和(15)计算均值μj和方差σj;
(3)根据公式(18)和(19)计算激活概率aj;
其中公式(21)的具体实现流程如下:
根据公式(16)和(17)计算高层次语义胶囊j的概率密度pj,然后根据pj来低层次的语义胶囊i到高层次的语义胶囊j的分配概率Rij。
说明书

技术领域

[0001] 本发明涉及自然语言处理的反讽检测领域,具体涉及基于多层次语义胶囊路由的反讽检测方法。

背景技术

[0002] 自动讽刺检测的文献分别集中于文本的词法、句法和语义层面的分析或者通过上下文假设、背景或常识来捕获用户的风格和个性描述。但是,在一组表示反讽的文本中,通常包含言语和情景两种类型的反讽文本。我们提出了一个基于多层次语义胶囊路由的反讽检测方法,用于在线社交媒体评论的反讽检测。对于前者,我们认为单个句子包含强烈的情感变化。因此,我们往句子上的每个单词上都通过SenticNet附加了情感权重。同样,有的时候单个句子无法判断是否包含反讽。为了让句子和上下文进行信息交互,我们使用局部注意力机制,从上下文获取用户的个性特征,从而对句子进行反讽检测。最后,我们通过语义胶囊路由来实现两种反讽检测方式的结合。

发明内容

[0003] 本发明的目的是针对现有技术的不足,以解决反讽检测分类效果不佳等问题,提供一种基于多层次语义胶囊路由的反讽检测方法。
[0004] 为实现以上的技术目的,本发明将采取以下技术方案:
[0005] 一种基于多层次语义胶囊路由的反讽检测方法,按照如下步骤进行:
[0006] 步骤(1)使用GloVe对网络评论和上下文进行词向量嵌入,分别获得网络评论的文本特征和上下文的文本特征;
[0007] 步骤(2)分别将网络评论和上下文的文本特征输入到Transformer模型中进行向量的转换,分别获得网络评论和上下文隐藏层特征;
[0008] 步骤(3)通过CNN把获得网络评论的隐藏层特征转化为网络评论的池化特征;
[0009] 步骤(4)把池化特征作为权重使用注意力机制对上下文的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅰ;
[0010] 步骤(5)把网络评论的隐藏层特征与SenticNet中获得情感权重相结合,获得新的隐藏层特征Ⅱ;
[0011] 步骤(6)把隐藏层特征Ⅰ和Ⅱ作为低层次的语义胶囊,进行EM路由获得高层次的语义胶囊;
[0012] 步骤(7)把高层次的语义胶囊通过SoftMax获得最后的分类结果。
[0013] 其中步骤(2),Transformer模型在得到文本的词向量的过程中,还需要获得文本词向量的相对位置。
[0014] 本发明进一步限定的技术方案为:
[0015] 进一步的,步骤(1)具体为:使用glove.840B.300d的词向量文件把SARC数据集中的网络评论和上下文进行词向量嵌入,获得一个维度为300维的词向量矩阵;
[0016] 进一步的,步骤(2)具体为:把网络评论和上下文的文本特征输入到Transformer模型中获得上下文相关的网络评论和上下文的隐藏层特征;
[0017] 进一步的,步骤(3)中,利用CNN网络模型对步骤(2)获得网络评论的隐藏层特征进行Max-pooling操作,获得网络评论的池化特征;
[0018] 进一步的,步骤(4)包括:使用网络评论的池化特征对上下文的词向量特征进行权重的偏移。具体来说,我们使用了缩放点积的注意力机制,可以将它描述为将query和key映射到单词级的权重上。
[0019] query是上下文的隐藏层特征的平均向量,以及网络评论的池化特征的平均向量,通过可训练的参数转化为dk维:
[0020]
[0021]
[0022] key包括上下文的隐藏层特征和网络评论的池化特征,通过可训练的参数转化为dk维:
[0023]
[0024]
[0025] 其中, 是上下文的隐藏层特征, 是网络评论的池化特征,它们的向量维度都是2dl; 的向量维度是2dl*dk。
[0026] 网络评论到上下文的交互注意力权重可以计算如下:
[0027]
[0028]
[0029] 为了确保 的每个维度之间的参数差距比较大,引入 作为比例因子。
[0030] 根据公式(12)获得新的隐藏层特征Ⅰ。
[0031]
[0032] 进一步的,步骤(5)包括:使用SenticNet获得网络评论中每个单词对应的情感权重,然后使用注意力机制把网络评论的情感权重与步骤(2)中获得的网络评论的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅱ。
[0033] 进一步的,步骤(6)包括:把步骤(4)和步骤(5)的输出的隐藏层特征Ⅰ和隐藏层特征Ⅱ作为输入,创建低层次的语义胶囊。低层次的语义胶囊i包含激活概率和高层次输出两个部分;
[0034] 进一步的,步骤(7)包括:对步骤(6)中得到的低层次的语义胶囊i进行EM路由,获得高层次的语义胶囊j。
[0035] 首先,利用公式(13)、公式(14)和公式(15)计算出低层次语义胶囊i到高层次语义胶囊j的均值和方差:
[0036] Voteij=GiWij#(13)
[0037]
[0038]
[0039] 其中,权重矩阵Wij是可训练的参数;Gi表示低层次的语义胶囊i的高层次输出,它是可训练的参数,它的初始值是低层次语义胶囊的输入;Rij表示低层次的语义胶囊i到高层次的语义胶囊j的分配概率; 表示低层次语义胶囊i到高层次的语义胶囊j的输出d维的均值; 表示低层次语义胶囊i到高层次的语义胶囊j的d维的方差。
[0040] 然后,根据步骤6-1计算出的低层次的语义胶囊i到高层次的语义胶囊j的均值和方差来计算分配概率。低层次的语义胶囊i到高层次的语义胶囊j的概率密度如公式(16)所示:
[0041]
[0042] 其次,低层次的语义胶囊i到高层次的语义胶囊j的分配概率如公式(17):
[0043]
[0044] 最后,根据分配概率来更新低层次语义胶囊j的高层次输出。
[0045] 对于计算低层次语义胶囊i的激活概率,我们根据低层次语义胶囊i到高层次的语义胶囊j的均值和方差,我们使用公式(17)和公式(18)来计算低层次语义胶囊i到高层次语义胶囊j的激活概率:
[0046]
[0047]
[0048] 其中,βu和βv都是可训练的参数;λ是一个固定值,被设置为1e-3;aj是低层次语义胶囊i到高层次的语义胶囊j的激活概率。
[0049] 因此,整个EM路由算法步骤可以总结为:
[0050] 1:设置低层次的语义胶囊i到高层次的语义胶囊j的分配概率的初始值为:J表示高层次的语义胶囊j的数量;
[0051] 2:计算上下文的低层次的语义胶囊i的激活概率为: 其中ai中的i表示低层次语义胶囊i, 中的i表示网络评论中的单词;
[0052] 3:计算网络评论的低层次的语义胶囊i的激活概率为: 这里i的含义与步骤2一致;
[0053] 4:重复进行r次迭代:
[0054]
[0055] 其中,M步骤的具体流程如下:
[0056] 1:根据低层次语义胶囊i到高层次语义胶囊j的激活概率,来更新低层次的语义胶囊i到高层次的语义胶囊j的分配概率:R'ij=Rij*ai,其中i和j分别表示低层次语义胶囊和高层次语义胶囊。
[0057] 2:根据公式(13)、(14)和(15)计算均值μj和方差σj;
[0058] 3:根据公式(18)和(19)计算激活概率aj。
[0059] E步骤的流程如下:
[0060] 1:根据公式(16)和(17)计算高层次语义胶囊j的概率密度pj,然后根据pj来低层次的语义胶囊i到高层次的语义胶囊j的分配概率Rij。
[0061] 进一步的,步骤(8)包括:把高层次的语义胶囊通过SoftMax输出最后的分类结果。
[0062] 本发明有益效果如下:
[0063] 本发明有效解决了现有的反讽检测方法过于片面的问题。这个问题具体表现为目前的反讽检测方法只针对于当个网络评论进行反讽检测,或只结合上下文信息进行反讽检测。当网络评论中的情感变化幅度比较大时,加入上下文信息反而会导致结果出错;又当网络评论信息不充分时,无法检测出用户是否使用了讽刺和反语的修辞手法。但是,本发明提出的反讽检测方法同时考虑了这两种情况,我们首先利用SenticNet对网络评论进行情感权重的偏移,获取到了解决第一种情况的语义胶囊。然后,我们又通过CNN把网络评论和上下文信息进行融合,获得了用于第二种情况的语义胶囊。之后,我们用两种语义胶囊组成了低层次的语义胶囊层。最后,我们通过EM路由的方式,获得了高层次的语义胶囊层,使用SoftMax函数输出反讽检测的结果。

实施方案

[0066] 附图非限制性的公开了本发明所涉及优选实施例的流程示意图;以下将结合附图详细的说明本发明的技术方案。
[0067] 步骤(1)具体实现如下:使用glove.840B.300d的词向量文件把SARC数据集中的网络评论和上下文进行词向量嵌入,获得一个维度为300维的词向量矩阵;
[0068] 步骤(2)具体实现如下:
[0069] 将步骤(1)中获得的上下文的文本特征和网络评论的文本特征输入到Transformer中获得上下文的隐藏层特征和网络评论的隐藏层特征,Transformer模型序列化传导模型不同于传统的模型(LSTM或GRU),它可以获得有效地获取长文本的上下文相关的文本特征,它原理如下具体实现如下:
[0070] 大部分神经序列转导模型都有一个编码器-解码器结构。这里,编码器映射一个用符号表示的输入序列x1,…,xn到一个连续的表示z=(z1,…,zn)。根据z,解码器生成符号的一个输出序列(y1,…,ym),一次一个元素。在每一步中,模型都是自回归的,当生成下一个时,消耗先前生成的符号作为附加输入。
[0071] Transformer模型中编码器和解码器都使用self-attention堆叠和point-wise、完全连接的层。Attention函数可以描述为将query和一组key-value对映射到输出,其中query、key、value和输出都是向量。输出为value的加权和,其中分配给每个value的权重通过query与相应key的兼容函数来计算。
[0072] 这里的attention为“缩放版的点积attention”。输入由query、dk维的key和dv维的value组成。我们计算query和所有key的点积、用 相除,然后应用一个SoftMax函数以获得值的权重。在实践中,我们同时计算一组query的attention函数,并将它们组合成一个矩阵Q。key和value也一起打包成矩阵K和V。计算输出矩阵为:
[0073]
[0074] 多头注意力机制允许模型的不同表示子空间联合关注不同位置的信息。如果只有一个注意力头部,它的平均值会削弱这个信息。
[0075] MultiHead(Q,K,V)=Concat(head1,…,headn)WO#(24)
[0076] 其中 WO是可训练的参数。
[0077] 除了attention子层之外,编码器和解码器中的每个层都包含一个完全连接的前馈网络,该前馈网络单独且相同地应用于每个位置。它由两个线性变换组成,之间有一个ReLU激活。
[0078] FFN(x)=max(0,xW1+b1)W2+b2#(25)
[0079] 其中,x是输入,W1,W2是可训练的权重参数,b1,b2是可训练的偏置参数。
[0080] 由于Transformer不包含循环和卷积,为了让模型利用序列的顺序,模型必须注入序列中关于词符相对或者绝对位置的一些信息。为此,模型将“位置编码”添加到编码器和解码器堆栈底部的输入嵌入中。位置编码和嵌入的维度dmodel相同,所以它们俩可以相加。有多种位置编码可以选择,例如通过学习得到的位置编码和固定的位置编码。在这项工作中,模型使用不同频率的正弦和余弦函数:
[0081]
[0082]
[0083] 其中pos是位置,i是维度,dmodel表示模型的维度。
[0084] 在步骤(3)中,将步骤(2)获得的网络评论的隐藏层特征,使用CNN进行特征提取,然后通过Max-Pooling获得网络评论的池化特征。
[0085] 在步骤(4)中,使用步骤(3)中获得的网络评论的池化特征,对上下文的隐藏层特征进行权重偏移。具体来说,我们使用了缩放点积的注意力机制,将注意力机制描述为将query和key映射到单词级别的权重上。
[0086] query包括上下文的隐藏层特征的平均向量,以及网络评论的池化特征的平均向量,通过可训练的参数转化为dk维:
[0087]
[0088]
[0089] key包括上下文的隐藏层特征和网络评论的池化特征,通过可训练的参数转化为dk维:
[0090]
[0091]
[0092] 其中, 是上下文的隐藏层特征, 是网络评论的池化特征,它们的向量维度都是2dl; 的向量维度是2dl*dk。
[0093] 网络评论到上下文的交互注意力权重可以计算如下:
[0094]
[0095]
[0096] 为了确保 的每个维度之间的参数差距比较大,我们引入 作为比例因子。
[0097] 在步骤(5)中,使用SenticNet获得网络评论中每个单词对应的情感权重,然后使用注意力机制把网络评论的情感权重与步骤(2)中获得的网络评论的隐藏层特征进行权重偏移,获得新的隐藏层特征Ⅱ。
[0098] 在步骤(6)中,把步骤(4)和步骤(5)的输出的隐藏层特征Ⅰ和隐藏层特征Ⅱ作为输入,创建低层次的语义胶囊。低层次的语义胶囊i包含激活概率和高层次输出两个部分。
[0099] 在步骤(7)中,为了获得高层次的语义胶囊j,我们对低层次的语义胶囊i进行EM路由,它的具体过程实现如下:
[0100] 首先,我们利用公式(13)、公式(14)和公式(15)计算出低层次语义胶囊i到高层次语义胶囊j的均值和方差:
[0101] Voteij=GiWij#(13)
[0102]
[0103]
[0104] 其中,权重矩阵Wij是可训练的参数;Gi表示低层次的语义胶囊i的高层次输出,它是可训练的参数,它的初始值是低层次语义胶囊的输入;Rij表示低层次的语义胶囊i到高层次的语义胶囊j的分配概率; 表示低层次语义胶囊i到高层次的语义胶囊j的输出d维的均值; 表示低层次语义胶囊i到高层次的语义胶囊j的d维的方差。
[0105] 我们根据6-1计算出的低层次的语义胶囊i到高层次的语义胶囊j的均值和方差来计算分配概率。低层次的语义胶囊i到高层次的语义胶囊j的概率密度如公式(16)所示:
[0106]
[0107] 其次,低层次的语义胶囊i到高层次的语义胶囊j的分配概率如公式(17):
[0108]
[0109] 最后,根据分配概率来更新低层次语义胶囊j的高层次输出。
[0110] 根据低层次语义胶囊i到高层次的语义胶囊j的均值和方差,我们使用公式(17)和公式(18)来计算低层次语义胶囊i到高层次语义胶囊j的激活概率:
[0111]
[0112]
[0113] 其中,βu和βv都是可训练的参数;λ是一个固定值,被设置为1e-3;aj是低层次语义胶囊i到高层次的语义胶囊j的激活概率。
[0114] 因此,整个EM路由算法步骤可以总结为:
[0115] 1:设置低层次的语义胶囊i到高层次的语义胶囊j的分配概率的初始值为:J表示高层次的语义胶囊j的数量;
[0116] 2:计算上下文的低层次的语义胶囊i的激活概率为: 其中ai中的i表示低层次语义胶囊i, 中的i表示网络评论中的单词;
[0117] 3:计算网络评论的低层次的语义胶囊i的激活概率为: 这里i的含义与步骤2一致;
[0118] 4:重复进行r次迭代:
[0119]
[0120] 其中,M步骤的具体流程如下:
[0121] 1:根据低层次语义胶囊i到高层次语义胶囊j的激活概率,来更新低层次的语义胶囊i到高层次的语义胶囊j的分配概率:R'ij=Rij*ai,其中i和j分别表示低层次语义胶囊和高层次语义胶囊。
[0122] 2:根据公式(13)、(14)和(15)计算均值μj和方差σj;
[0123] 3:根据公式(18)和(19)计算激活概率aj。
[0124] E步骤的流程如下:
[0125] 1:根据公式(16)和(17)计算高层次语义胶囊j的概率密度pj,然后根据pj来低层次的语义胶囊i到高层次的语义胶囊j的分配概率Rij。
[0126] 在步骤(8)中,把高层次的语义胶囊j通过SoftMax函数输出最后的分类结果。

附图说明

[0064] 图1是本发明工艺实施方案的具体流程图;
[0065] 图2是本发明的模型流程示意图;
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号