[0045] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0046] 一种基于舆情大数据分析的多标签文本分类方法,如图1所示,该方法包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类标签;根据文本分类标签对文本数据进行分类;所述多标签文本分类模型包括图卷积神经网络GCN和注意力残差网络。
[0047] 对多标签文本分类模型进行训练的过程包括:
[0048] S1:获取文本数据和标签数据;将每个文本数据转换为词级拓扑图,将所有的拓扑图进行集合和划分,得到训练集和测试集;将标签数据转换为标签拓扑图;
[0049] S2:将训练集中的词级拓扑图输入到图卷积神经网络GCN中提取文本数据的词级特征向量;
[0050] S3:根据图卷积神经网络GCN的注意力系数和文本数据构建句级拓扑图,将句级拓扑图输入到图卷积神经网络GCN中提取文本数据的句级特征向量;
[0051] S4:将各个标签拓扑图输入到图卷积神经网络GCN中,提取各个标签拓扑图的标签特征向量;
[0052] S5:采用基于注意力的残差网络对词级特征向量和句级特征向量进行特征融合,得到级联特征向量;
[0053] S6:将标签特征向量与级联特征向量进行点乘,预测文本的分类标签;
[0054] S7:根据文本的分类标签计算多标签文本分类模型的损失函数;
[0055] S8:将测试集中的拓扑图再次输入到多标签文本分类模型中,优化损失函数,当损失函数最小时,完成模型的训练。
[0056] 如图2所示,将高校文本语料分别构建拓扑图,图的节点由各文本语料词汇组成,即图中节点数|V|=|n|,其中n表示当前文本词汇总量,拓扑图的边采用互信息表示PMI。当PMI(i,j)为正数时,表示词i,j有较强的语义关联性,当PMI(i,j)为负数时,表示词i,j语义关联性较低。
[0057] 提取文本数据的词级特征向量的过程为:
[0058] 步骤1:采用预训练的BERT模型对文本数据进行词向量编码处理,得到每个词在向量空间中对应的特征向量表示h。
[0059] 通过预训练的BERT模型对文本及标签信息进行词向量编码,使得原始文本中的每个词及标签词在向量空间中有对应的特征表示。编码后的各条高校新闻评论信息样本的向量表示:Xr={x1,x2,...,xn},其中n为各文本词数,r为文本语料序号。将所有出现的标签拼接在一起,标签向量表示为:Y={y1,y2,...,yt},其中t为标签个数。
[0060] 步骤2:根据词级拓扑图的节点和边构建邻接矩阵。
[0061] 对于邻接矩阵A,则根据词汇节点之间的边计算,即邻接矩阵A的计算方式为:
[0062]
[0063] 对于词汇节点之间的权重,采用互信息表示PMI,其计算公式为:
[0064]
[0065]
[0066]
[0067] 其中#W(i)表示在固定滑动窗口下词汇i出现的数量,#W(i,j)表示在固定滑动窗口下词汇i,j同时出现的数量,#W表示所有固定滑动窗口下的词汇i或j的总数。
[0068] 步骤3:据特征向量h构建得到初始特征矩阵H={h1,h2,...,hv};其中,v为词数,hy表示词的特征。
[0069] 步骤4:将邻接矩阵和初始特征矩阵输入到图卷积神经网络GCN模型中,提取出词级特征向量H。
[0070] 得到词级特征向量的具体计算公式我为:
[0071] hl=ReLU(ReLU(hil‑1Wl‑1,hjWl‑1)hl‑1Wl‑1)
[0072] 其中,l为当前层, 表示第l‑1层的词级特征,W为上一层权重系数;最后一层的last词级特征h 为提取出词级特征向量H。
[0073] 设置图卷积神经输入为N*k,其中k为编码维度,N为文本的词数,对词数小于N的文本进行padding填充,对词语大于N的文本进行截断处理。对将每张图分别输入GCN模型得到各个高校新闻评论文本的词级特征向量,且对每一层输出使用ReLU(⊙)激活函数,则图卷积神经网络的节点更新机制为:
[0074] hl=ReLU(Ahl‑1Wl‑1)
[0075] 其中A为邻接矩阵,Wl‑1为l‑1层的权重,hl‑1为第l‑1层的输出结果,h1=X。
[0076] 提取文本数据的句级特征向量的过程包括:
[0077] 步骤1:获取训练词级网络的注意力系数ai,j。
[0078] 在最后一层以ReLU(⊙)激活函数的注意力机制计算当前层每个节点的注意力系数。注意力系数的计算方式为:
[0079] aij=ReLU(hiWl,hjWl)
[0080] 其中,hi表示当前卷积层的第i个节点特征向量,hj表示当前卷积层的第j个节点特征向量,Wl表示当前层权重系数,ReLU(.)表示线性整流函数,又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。
[0081] 步骤2:根据注意力系数将各高校文本语料转换为句级向量编码表示H~;
[0082] 采用词级网络得到的权重计算各高校文本语料的向量表示,其计算方式为:
[0083]
[0084] 其中,ai,j为上述词级网络训练得到的节点i与j的注意力系数,Hi为当前词节点,m为与i相邻的节点数,N为句子词数, 为句子r的节点表示。
[0085] 步骤3:根据文本数据构建句级拓扑图,句级拓扑图的节点由文本各句子组成。
[0086] 步骤4:根据句级拓扑图的节点和边构建邻接矩阵;
[0087] 对文本所有句子构建拓扑图计算句级特征包括如下:
[0088]
[0089] 对于词汇节点之间的权重,采用互信息表示PMI,其计算公式为:
[0090]
[0091]
[0092]
[0093] 其中#W(i)表示在固定滑动窗口下句子i出现的数量,#W(i,j)表示在固定滑动窗口下句子i,j同时出现的数量,当PMI(i,j)为正数时,表示句子i,j有较强的语义关联性,当PMI(i,j)为负数时,表示词i,j语义关联性较低。
[0094] 步骤5:根据句级向量编码表示H~构建初始句级特征矩阵。
[0095] 步骤6:将邻接矩阵和初始句级特征矩阵特征矩阵输入到图卷积神经网络GCN模型*中,提取出句级特征向量H。
[0096] 设置图卷积神经输入为m*k,其中k为编码维度,m为文本的句子数,对句子数小于m的文本进行padding填充,对词语大于m的文本进行截断处理。将拓扑图输入GCN模型得到所有高校文本语料的句级特征向量。网络输出即为高校文本语料的句级特征向量,其表示为:*
H ,并在最后一层引入以ReLU(⊙)激活函数的注意力机制计算当前层每个节点的注意力系数。
[0097] 如图3所示,采用注意力残差计算对词级特征向量和句级特征向量进行残差融合,得到级联特征向量的过程包括:
[0098] 步骤1:采用全连接神经网络对句级特征向量进行处理,得到与词级特征向量相同维度的句级特征向量。
[0099] 步骤2:将句级特征向量与词级特征向量特征融合得到级联文本特征向量Z。
[0100] 构建一个全连接神经网络,网络输入为m*k维,输出为N*k维。全连接采用Relu激活函数。
[0101] 其次将句级特征向量H*输入全连接神经网络中学习,得到于词级特征向量相同维度的新句级特征向量。
[0102] 将句级特征向量与词级特征向量累加求平均,得到所有文本特征的一维表示,用与标签预测。
[0103] 注意力类残差网络的计算方式如下:
[0104]
[0105] 其中arj为句级网络训练得到的节点r与j之间的注意力系数,M为所有与节点r邻接的节点,Hi为节点为i的词级特征向量, 为节点为r的句级特征向量,N为设定的词级图卷积神经网络的输入维度及全连接神经网络的输出维度,W为全连接神经网络的权重参数,b为偏置项。
[0106] 对标签构建拓扑图计算标签相关性特征包括如下
[0107] 对标签向量Y构建拓扑图,图的节点由各标签词汇组成,即图中节点数|V|=|L|,L为所有不互相重复的标签数量,拓扑图的边采用余弦相似度和欧拉距离。对于特征矩阵X,采用单位矩阵E表示,而对于邻接矩阵A,则根据词汇节点之间的边计算,即邻接矩阵A的计算方式为:
[0108]
[0109] 对于标签与标签之间的关联引入余弦相似度cos(i,j),其计算公式为:
[0110]
[0111] 步骤3:构建了拓扑图之后,将拓扑图输入GCN模型得到所有标签的特征向量F,其含义即多标签之间的相关性。
[0112] 步骤4:将级联特征与标签特征点积得到预测标签,其计算方式如下:
[0113]
[0114] 其中,Z表示级联特征向量,F表示标签的特征向量,⊙表示点乘运算。
[0115] 多标签文本分类模型的损失函数为:
[0116]
[0117] 其中,yD表示高校新闻评论文本语料的合集,Y为文本预料真实标签, 表示预测标签。
[0118] 以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。