首页 > 专利 > 杭州电子科技大学 > 一种基于轮盘赌属性选择的文本情感分类集成系统专利详情

一种基于轮盘赌属性选择的文本情感分类集成系统   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2020-12-31
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2021-05-04
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-05-31
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2040-12-31
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202011640409.1 申请日 2020-12-31
公开/公告号 CN112667817B 公开/公告日 2022-05-31
授权日 2022-05-31 预估到期日 2040-12-31
申请年 2020年 公开/公告年 2022年
缴费截止日
分类号 G06F16/35G06K9/62 主分类号 G06F16/35
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 3
权利要求数量 4 非专利引证数量 1
引用专利数量 0 被引证专利数量 0
非专利引证 1、CN 101710333 A,2010.05.19CN 108491377 A,2018.09.04CN 107679580 A,2018.02.09CN 107291723 A,2017.10.24CN 101587493 A,2009.11.25CN 108509421 A,2018.09.07刘成锴等“.基于遗传算法的文本特征选择”《.科学技术与工程》.2019,302-307.;
引用专利 被引证专利
专利权维持 2 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 张忠良、张晨玥、雒兴刚、蔡灵莎、苑嘉航 第一发明人 张忠良
地址 浙江省杭州市经济技术开发区白杨街道2号大街1158号 邮编 310018
申请人数量 1 发明人数量 5
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
浙江千克知识产权代理有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
周希良
摘要
本发明涉及数据挖掘及产品技术领域,尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统,包括以下步骤:S1:获取在线文本和对应的情感类别数据;S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;S6:集成后的系统通过聚合策略得到情感类别预测结果。本发明可以有效解决多分类问题模型复杂,难于求解的问题。
  • 摘要附图
    一种基于轮盘赌属性选择的文本情感分类集成系统
  • 说明书附图:图1
    一种基于轮盘赌属性选择的文本情感分类集成系统
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-05-31 授权
2 2021-05-04 实质审查的生效 IPC(主分类): G06F 16/35 专利申请号: 202011640409.1 申请日: 2020.12.31
3 2021-04-16 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,包括以下步骤:
S1:获取在线文本和对应的情感类别数据;
S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;
S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;
S6:集成后的系统通过聚合策略得到情感类别预测结果;
步骤S3具体是:将预处理后文本的特征向量涉及到的n分类的多分类问题,转化为 个一对一问题;
步骤S4包括以下步骤:
S41:对每个一对一问题,计算每个词的信息增益IG,IG的计算方法为:
其中,X表示特征;n表示类别总数;i表示第i个类别;Pi表示X取第i个类别的概率;
对于系统中所含变量类别C来说,分类系统的熵表示为:
C取值为C1,C2,……,Cn,n为类别总数;
其中,Ci表示第i个变量类别;P(Ci)表示类别为Ci的概率;
当特征X被固定时,特征X有x1,x2,……,xi值,其条件熵为:
由此得到固定词T时系统的条件熵为:
其中,t代表词T出现,代表词T不出现;P(t)表示词T出现的概率; 表示词T不出现的概率;H(C|t)表示词T出现时系统的条件熵; 表示词T不出现时系统的条件熵;
特征词T给系统带来的信息增益为:
S42:对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样,每个特征被选中的可能性为:
共有m个特征,b其中,Ti表示第i个词;IG(Ti)表示第i个词的信息增益值;
从而得到a种不全相同的数据集。

2.根据权利要求1所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S2包括以下步骤:
S21:使用词袋法将获取的在线文本内容转化成特征向量;
S22:使用统计方法进行预处理;其中,统计方法为词频‑逆向文件频率TF‑IDF;
TF‑IDF的计算方法如下:
TF‑IDF=TF*IDF                      (3)。

3.根据权利要求1所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S5包括以下步骤:
S51:使用a种不全相同的数据集训练c种分类器;
S52:挑选出a个性能最好的基分类器;共得到 个基分类器,并集成形成一个完整的系统。

4.根据权利要求3所述的基于轮盘赌属性选择的文本情感分类集成系统,其特征在于,步骤S6包括以下步骤:
S61:输入一条文本内容到集成后形成的系统中,得到 个结果;
S62:通过投票法或加权投票法,得到一个n×n的得分矩阵:
其中,
对每个rij,vi为在分类第i类和第j类的子问题中所训练的a个分类器中预测结果为第i类的次数,且有:
rij+rji=1
S63:根据得分矩阵从而输出情感类别预测结果。
说明书

技术领域

[0001] 本发明涉及数据挖掘及产品技术领域,尤其涉及一种基于轮盘赌属性选择的文本情感分类集成系统。

背景技术

[0002] 随着信息技术和移动通讯技术的飞速发展,上网的人越来越多。据统计,全球已有超过46亿互联网用户,互联网用户数量继续快速增长。很多互联网用户会在各种网站上发布在线文本来表达他们对社会问题的意见,分享他们对产品或服务的体验。这些在线文本所代表的人们的态度可以对政府、公司的决策产生较大的影响。因此,分析在线文本的情感类别是一件有意义的事情。
[0003] 为了处理浩如烟海的在线文本,我们采用数据挖掘的方式对在线文本进行处理和分类。但原始文本中所含的信息量过于庞大,内容太多冗杂,需要从中提取出更有用的关键词以更好的分析相应的情感信息。文本的情感分类最常用的是正向和负向的两分类,但这在实际应用之中过于绝对,不适合对人类复杂的情感进行简单而过于绝对的判断。因此多类别文本情感分类对文本更具有实际意义。然而人类的情感复杂多样,所撰写的文本内所包含的情感也涉及到多个类别。现有的分类器在处理多分类问题时往往不能获得预期的效果。将复杂的多分类问题分解成多个一对一的子问题进行处理是数据挖掘领域针对解决多分类问题的有效途径。而对于单个问题,集成学习通过构建并结合多个分类器来完成分类任务,通常可以获得比单一分类器显著优越的性能。
[0004] 综上所述,本发明利用数据挖掘技术结合文本情感分类系统,将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类问题,然后对每个子问题分别建立多个分类器进行集成,接着采用聚合策略,如投票法、加权投票法,将两类分类器组合成多分类器,提出了一种基于轮盘赌属性选择的文本情感分类集成系统。

发明内容

[0005] 为了解决上述技术问题,本发明设计了一种基于轮盘赌属性选择的文本情感分类集成系统。
[0006] 为实现以上技术目的,本发明采用以下技术方案::
[0007] 一种基于轮盘赌属性选择的文本情感分类集成系统,包括以下步骤:
[0008] S1:获取在线文本和对应的情感类别数据;
[0009] S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
[0010] S3:将预处理后文本的特征向量涉及到的多分类问题转化为一对一问题;
[0011] S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
[0012] S5:将进行过特征选择的数据集用于训练分类器,将分类器进行集成;
[0013] S6:集成后的系统通过聚合策略得到情感类别预测结果。
[0014] 进一步的,步骤S1包括有:选定研究对象,获取相应的在线文本内容和对应的情感类别标签。
[0015] 进一步地,步骤S2包括以下步骤:
[0016] S21:使用词袋法将获取的在线文本内容转化成特征向量;
[0017] S22:使用统计方法进行预处理,如使用词频‑逆向文件频率(TF‑IDF)等方法,TF‑IDF的计算方法为:
[0018]
[0019]
[0020] TF‑IDF=TF*IDF                          (3)
[0021] 统计方法通过评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度,以得到便于处理的特征向量。
[0022] 进一步地,步骤S3将预处理后文本的特征向量涉及到的n分类的多分类问题,转化为 个一对一问题。
[0023] 进一步地,步骤S4包括以下步骤:
[0024] S41:对每个一对一问题,计算每个词的信息增益(information gain,IG),IG的计算方法为:
[0025]
[0026] 其中,X表示特征;n表示类别总数;i表示第i个类别;Pi表示X取第i个类别的概率;
[0027] 因此对于系统中所含变量类别C(可能取值为C1,C2,……,Cn,n为类别总数)来说,分类系统的熵就能够表示为:
[0028]
[0029] 其中,Ci表示第i个变量类别;P(Ci)表示类别为Ci的概率;
[0030] 当特征X被固定时,特征X有x1,x2,……,xi值,其条件熵为:
[0031]
[0032] 由此可得固定词T时系统的条件熵为:
[0033]
[0034] 其中,t代表词T出现,代表词T不出现;P(t)表示词T出现的概率; 表示词T不出现的概率;H(C|t)表示词T出现时系统的条件熵; 表示词T不出现时系统的条件熵;
[0035] 因此特征词T给系统带来的信息增益就能够写成系统原本的熵与固定特征T后的条件熵之差:
[0036]
[0037] 信息增益能考察特征对整个系统的贡献,而在相对应的子问题中使用信息增益来进行特征选择,则能得到特征对该一对一问题的贡献;
[0038] S42:对得到的特征的信息增益值a次使用轮盘赌做b次不放回抽样,每个特征(共有m个特征,b
[0039]
[0040] 其中,Ti表示第i个词;IG(Ti)表示第i个词的信息增益值;从而得到a种不全相同的数据集。
[0041] 进一步地,步骤S5包括以下步骤:
[0042] S51:使用a种不全相同的数据集训练c种分类器(如决策树,BP神经网络,支持向量机,k近邻,朴素贝叶斯等);
[0043] S52:从而挑选出a个性能最好的基分类器,共得到 个基分类器,并集成形成一个完整的系统。
[0044] 进一步地,步骤S6包括以下步骤:
[0045] S61:输入一条文本内容到步骤S52集成后形成的系统中,能得到 个结果;
[0046] S62:通过投票法或加权投票法,得到一个n×n的得分矩阵:
[0047]
[0048] 其中,
[0049]
[0050] 对每个rij,vi为在分类第i类和第j类的子问题中所训练的a个分类器中预测结果为第i类的次数,且有:
[0051] rij+rji=1
[0052] S63:根据得分矩阵从而输出情感类别预测结果。
[0053] 与现有技术相比,本发明的有益效果为:
[0054] 本发明对文本中的特征根据其信息增益使用轮盘赌进行了选择;将文本情感分类中涉及的多分类问题分解成多个便于建模的两分类子问题,可以有效解决多分类问题模型复杂,难于求解的问题;对于每个子问题采用了分类器集成的方法;采用聚合策略组合两类分类器,从而建立多分类器;设计了完整的实验来验证该策略的有效性;通过特征选择,多分类问题分解和分类器集成,能获得较为准确的分类结果,运用本发明的系统,可以为政府、企业对文本进行情感分类提供帮助。

实施方案

[0056] 下面结合实例对本发明的具体实施方式做详细说明。
[0057] 本实施例一种基于轮盘赌属性选择的文本情感分类集成系统,包括如下步骤:
[0058] S1:选定了电影评论数据集中的四个情感尺度数据集作为研究对象,并获取其在线文本内容和情感类别数据,每个数据集各有一种3分类的情感分类和4分类的情感分类,此后皆以Dennis Schwartz的评论的四分类方式为例;
[0059] S2:通过对获取的在线文本特征提取,将获取的在线文本转化为特征向量并进行预处理;
[0060] S21:对电影评论内容使用词袋模型处理,转化为特征向量;
[0061] S22:使用TF‑IDF进行处理,得到一个1027×17901的稀疏矩阵为数据集;
[0062] S3:先提取出数据集中的1/10作为测试样本用于后续的测试,再对剩余的数据集按照标签类别进行划分,每两类为一个新的子问题,共得到 个新问题;
[0063] S4:对每个一对一问题,计算每个词的信息增益后,使用轮盘赌进行特征选择;
[0064] S41:对每个新问题的每个词进行信息增益的计算;
[0065] S42:根据其得到的每个词的信息增益使用轮盘赌进行属性选择,共进行40次,每次选择1000个属性以减少特征向量的维度,从而得到新的数据集,并从每个数据集中提取出其中的3/10用于后续验证;
[0066] S5:进行过特征选择的数据集用于训练分类器,将分类器进行集成;
[0067] S51:使用特征选择后的40个数据集训练五种分类器(决策树,BP神经网络,支持向量机,k近邻,朴素贝叶斯);
[0068] S52:对6个子问题的40个数据集中的每一个,使用步骤S42中提取出的用于验证的部分找到五个训练好的分类器中效果最佳的分类器。每个子问题得到40个基分类器,共得到240个基分类器,集成形成一个完整的系统;
[0069] S6:集成后的系统通过聚合策略得到情感类别预测结果;
[0070] S61:每次输入测试样本中的一个样本到系统中,从而获得240个结果;
[0071] S62:通过投票法聚合形成一个4×4的得分矩阵;
[0072] S63:根据得分矩阵的结果输出最后预测结果。
[0073] 该具体实施方式得到如下结果:
[0074] 表1电影评论情感分类预测准确率
[0075]

附图说明

[0055] 图1是本发明中具体流程的总体示例图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号