[0005] 为了解决上述技术问题,本发明设计了一种基于轮盘赌属性选择的文本情感分类集成系统。
[0006] 为实现以上技术目的,本发明采用以下技术方案::
[0007] 一种基于轮盘赌属性选择的文本情感分类集成系统,包括以下步骤:
[0008] S1:获取在线文本和对应的情感类别数据;
[0009] S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
[0010] S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;
[0011] S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
[0012] S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;
[0013] S6:集成后的系统通过聚合策略得到情感类别预测结果。
[0014] 进一步的,步骤S1包括有:选定研究对象,获取相应的在线文本内容和对应的情感类别标签。
[0015] 进一步地,步骤S2包括以下步骤:
[0016] S21:使用词袋法将获取的在线文本内容转化成特征向量;
[0017] S22:使用统计方法进行预处理,如使用词频‑逆向文件频率(TF‑IDF)等方法,TF‑IDF的计算方法为:
[0018]
[0019]
[0020] TF‑IDF=TF*IDF (3)
[0021] 统计方法通过评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度,以得到便于处理的特征向量。
[0022] 进一步地,步骤S3将预处理后文本的特征向量涉及到的n分类的多分类问题,转化为 个一对一问题。
[0023] 进一步地,步骤S4包括以下步骤:
[0024] S41:对每个一对一问题,计算每个词的信息增益(information gain,IG),IG的计算方法为:
[0025]
[0026] 其中,X表示特征;n表示类别总数;i表示第i个类别;Pi表示X取第i个类别的概率;
[0027] 因此对于系统中所含变量类别C(可能取值为C1,C2,……,Cn,n为类别总数)来说,分类系统的熵就能够表示为:
[0028]
[0029] 其中,Ci表示第i个变量类别;P(Ci)表示类别为Ci的概率;
[0030] 当特征X被固定时,特征X有x1,x2,……,xi值,其条件熵为:
[0031]
[0032] 由此可得固定词T时系统的条件熵为:
[0033]
[0034] 其中,t代表词T出现,代表词T不出现;P(t)表示词T出现的概率; 表示词T不出现的概率;H(C|t)表示词T出现时系统的条件熵; 表示词T不出现时系统的条件熵;
[0035] 因此特征词T给系统带来的信息增益就能够写成系统原本的熵与固定特征T后的条件熵之差:
[0036]
[0037] 信息增益能考察特征对整个系统的贡献,而在相对应的子问题中使用信息增益来进行特征选择,则能得到特征对该一对一问题的贡献;
[0038] S42:对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样,每个特征(共有m个特征,b
[0039]
[0040] 其中,Ti表示第i个词;IG(Ti)表示第i个词的信息增益值;从而得到a种不全相同的数据集。
[0041] 进一步地,步骤S5包括以下步骤:
[0042] S51:使用a种不全相同的数据集训练c种分类器(如决策树,BP神经网络,支持向量机,k近邻,朴素贝叶斯等);
[0043] S52:从而挑选出a个性能最好的基分类器,共得到 个基分类器,并集成形成一个完整的系统。
[0044] 进一步地,步骤S6包括以下步骤:
[0045] S61:输入一条文本内容到步骤S52集成后形成的系统中,能得到 个结果;
[0046] S62:通过投票法或加权投票法,得到一个n×n的得分矩阵:
[0047]
[0048] 其中,
[0049]
[0050] 对每个rij,vi为在分类第i类和第j类的子问题中所训练的a个分类器中预测结果为第i类的次数,且有:
[0051] rij+rji=1
[0052] S63:根据得分矩阵从而输出情感类别预测结果。
[0053] 与现有技术相比,本发明的有益效果为:
[0054] 本发明对文本中的特征根据其信息增益使用轮盘赌进行了选择;将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类子问题,可以有效解决多分类问题模型复杂,难于求解的问题;对于每个子问题采用了分类器集成的方法;采用聚合策略组合两类分类器,从而建立多分类器;设计了完整的实验来验证该策略的有效性;通过特征选择,多分类问题分解和分类器集成,能获得较为准确的分类结果,运用本发明的系统,可以为政府、企业对文本进行情感分类提供帮助。