首页 > 专利 > 重庆邮电大学 > 一种基于图聚类的高维文本数据特征选择方法专利详情

一种基于图聚类的高维文本数据特征选择方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2016-11-10

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2017-05-17

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2020-09-29

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2036-11-10

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201610991719.5	申请日	2016-11-10
公开/公告号	CN106570178B	公开/公告日	2020-09-29
授权日	2020-09-29	预估到期日	2036-11-10
申请年	2016年	公开/公告年	2020年
缴费截止日
分类号	G06F16/35	主分类号	G06F16/35
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	6
权利要求数量	7	非专利引证数量	0
引用专利数量	5	被引证专利数量	0
非专利引证
引用专利	US2013177244A1、US2007112867A1、CN104050556A、CN105975589A、CN104217015A	被引证专利
专利权维持	6	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	重庆邮电大学	第一申请人	重庆邮电大学
专利权人	重庆邮电大学	当前专利权人	重庆邮电大学
发明人	王进、谢水宁、欧阳卫华、张登峰、颉小凤、邓欣、陈乔松、雷大江、李智星、胡峰	第一发明人	王进
地址	重庆市南岸区南山街道崇文路2号	邮编	400065
申请人数量	1	发明人数量	10
申请人所在省	重庆市	申请人所在市	重庆市南岸区

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

重庆市恒信知识产权代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

刘小红

摘要

本发明请求保护一种基于图聚类的高维文本数据特征选择方法，该方法包括：剔除不相关特征，并构造加权无向图；再结合社区发现算法快速地将特征聚类；并以“最大相关最小冗余”原则搜索类簇空间，剔除类簇内的冗余特征；最后根据特征与类别间的关系挑选出最佳特征子集。本发明旨在利用图能体现特征空间分布的特性，结合高效的社区发现进行特征聚类，选取出具有代表性的特征，并消除聚类过程中忽略数据分布情况和每个特征与类别都具有不同程度的重要性问题。同时解决聚类时的盲目性，使得文本分类结果具有更高的准确性和稳定性。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2020-09-29	授权
2	2017-05-17	实质审查的生效	IPC(主分类): G06F 17/30 专利申请号: 201610991719.5 申请日: 2016.11.10
3	2017-04-19	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于图聚类的高维文本数据特征选择方法，其特征在于，包括以下步骤：101、获取高维文本数据，并采用筛选法得到高维文本数据的相关特征，根据相关特征构造加权无向图；步骤101采用筛选法得到高维文本数据的相关特征的步骤为：步骤1：首先计算特征与类别间的相关性Sim(fi,C)，并进行降序排序；步骤2：采用双重阈值法剔除不相关特征，筛选出高维文本数据的相关特征；
步骤101根据相关特征构造加权无向图具体包括：将留下的相关特征集F＝{f1,f2,…,fm}，构造加权无向图G＝{V,E,W}，其中V＝{v1,v2,…,vm}为顶点集合，v1,v2,…,vm分别表示m个特征集，E＝{e1,e2,…,eq}为q条加权边集合，W＝{w1,w2,…,wq}为q条加权边的权值集合；
采用双重阈值法剔除不相关特征，筛选出高维文本数据的相关特征具体包括：设定两个阈值T1，T2，其中T1用于控制算法性能，T2体现特征相关性的分布情况，分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m1，m2，则最终保留的特征个数为m＝min{m1，m2}，其中m<＝n，阈值T1，T2分别设为和μ+δ，μ、δ分别表示均值和标准差，筛选得到相关特征集F＝{f1,f2,…,fm}；
102、采用社区发现算法将加权无向图高维文本数据的相关特征聚类；103、采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图类簇空间，剔除类簇内的冗余特征；104、最后根据剩余相关特征与类别间的关系，评价分类性能挑选出最佳特征子集。

2.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述步骤1计算特征与类别间的相关性Sim(fi,C)具体包括：假设存在数据集D＝{F,C}，其中F＝{f1,f2,…,fn}为特征集，n为特征维度，C为类别标签集，每个特征fi∈F，对于类别标签集C，可用如下Sim(x,y)表示：
其中μ，δ分别表示均值和标准差；H(x)和H(y)分别表示一个随机变量x和y的不确定性，即熵；IG(x,y)为信息增益。

3.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述步骤102用社区发现算法将高维文本数据的相关特征聚类包括步骤；初始化每个特征，将每个特征视为一个独立类簇，得到类簇集S＝{s1,s2,…,sk}，其中k表示形成k个类簇；
依据Sim(fi,C)降序排序，选取max(Sim(fi,C))的特征作为起始点，搜索特征fi所有邻近特征所在的类簇sj，并分别计算该特征和各个邻近类簇的关联性增益如果大于阈值T3，且为最大值，则将特征合并到该类簇中，形成新的类簇，反之，则不变：
直到所有特征都被划分到新的类簇中，并更新G；直到各个类簇间的差异度ΔGlo_Sim最大。

4.根据权利要求3所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述特征fi和各个邻近类簇的关联性增益计算公式为：
其中∑Sim(fi,sj)表示特征fi与类簇sj中所关联边的权重之和；∑Sim(sj,)为所有与类簇sj相关联的边之权重和；∑Sim(fi,)为所有与特征fi相关联的边总权重；∑Sim为图G中所有特征边的权重总和。

5.根据权利要求3所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述步骤103采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图的类簇空间，剔除类簇内的冗余特征具体包括：
假设聚类后每个类簇sl，其中l∈[1,k]，如果对于fi∈sl，存在Sim(fi,fj)<μ+δ&&Sim(fi,C)
6.根据权利要求1所述的基于图聚类的高维文本数据特征选择方法，其特征在于，步骤
104评价分类性能挑选出最佳特征子集包括：
剔除冗余特征后，在每个类簇内根据相关性Sim(fi,C)选择出Top w个特征组成最优特征子集，Top w指相关性最高的前w个特征，考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。

7.根据权利要求6所述的基于图聚类的高维文本数据特征选择方法，其特征在于，所述分类精确度的计算公式为：
其中Acc表示分类准确度，TP：被判定为正样本，事实上也是正样本，TN：被判定为负样本，事实上也是负样本，FP：被判定为正样本，但事实上是负样本，FN：被判定为负样本，但事实上是正样本。

说明书

技术领域

[0001] 本发明涉及机器学习、数据挖掘技术领域，尤其涉及一种基于图聚类的高维文本数据特征选择方法。

背景技术

[0002] 文本分类成为处理和组织大量文档数据的关键技术，但其高维特征空间不仅增加了分类的时间复杂度和空间复杂度，同时还可能会导致分类精度的降低。因此，需要对高维数据进行特征选择降低特征空间维度以及去除噪声特征，提高分类器的分类效率和分类精度。

[0003] 常见的文本特征方法主要有文档频率(DF)、信息增益(IG)、互信息(MI)等，这些方法基本思想都是对每个特征计算某种统计度量值，再设定一个阈值T，把度量值小于阈值T的特征过滤掉，剩下的即为文本特征。DF通过统计文档频率较高的词在文本中出现的次数进行提取，但是其可能会遗漏低频高信息量的词；IG只适用于全局变量；MI则性能表现不稳定。近年来，聚类分析也已广泛应用于文本特征选择领域，旨在依据聚类的判断准则，寻求一个更优的特征子集，使其能够更好地涵盖数据的分类能力，反映数据潜在的空间结构并提高聚类的准确性。但现有的大多数特征聚类算法都存在一定程度上的缺陷，例如类簇数需事先人为设定；忽略类簇的数据分布情况；忽略类簇中每个特征和类别都具有不同程度的重要性。

[0004] 为了解决上述问题，本发明提出了一种基于图聚类的高维文本数据特征选择方法，旨在利用图能表示特征空间分布的特性，以及高效的社区发现聚类算法，从而能在一定程度上避免过拟合现象，并消除聚类过程中忽略数据分布情况，以及解决聚类时的盲目性问题，从而选出更具有代表性的特征词，进而提高分类准确性和稳定性。

发明内容

[0005] 本发明旨在解决以上现有技术的问题。提出了一种能有效地去除噪声数据、使分类结果具有更高的准确性和稳定性的基于图聚类的高维文本数据特征选择方法。本发明的技术方案如下：

[0006] 一种基于图聚类的高维文本数据特征选择方法，其包括以下步骤：101、获取高维文本数据，并采用筛选法得到高维文本数据的相关特征，根据相关特征构造加权无向图；102、采用社区发现算法将加权无向图高维文本数据的相关特征聚类；103、采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图类簇空间，剔除类簇内的冗余特征；
104、最后根据剩余相关特征与类别间的关系，评价分类性能挑选出最佳特征子集。

[0007] 进一步的，步骤101采用筛选法得到高维文本数据的相关特征的步骤为：

[0008] 步骤1：首先计算特征与类别间的相关性Sim(fi,C)，并进行降序排序；

[0009] 步骤2：采用双重阈值法剔除不相关特征，筛选出高维文本数据的相关特征。

[0010] 进一步的，所述步骤1计算特征与类别间的相关性Sim(fi,C)具体包括：假设存在数据集D＝{F,C}，其中F＝{f1,f2,…,fn}为特征集，n为特征维度，C为类别标签集，每个特征fi∈F，对于类别标签集C，可用如下Sim(x,y)表示：

[0011]

[0012] 其中μ，δ分别表示均值和标准差；H(x)和H(y)分别表示一个随机变量x和y的不确定性，即熵；IG(x,y)为信息增益。

[0013] 进一步的，采用双重阈值法剔除不相关特征，筛选出高维文本数据的相关特征具体包括：设定两个阈值T1，T2，其中T1用于控制算法性能，T2体现特征相关性的分布情况，分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m1，m2，则最终保留的特征个数为m＝min{m1，m2}，其中m<＝n，阈值T1，T2分别设为和μ+δ，筛选得到相关特征集F＝{f1,f2,…,fm}。

[0014] 进一步的，步骤101根据相关特征构造加权无向图具体包括：

[0015] 将留下的相关特征集F＝{f1,f2,…,fm}，构造加权无向图G＝{V,E,W}，其中V＝{v1,v2,…,vm}为顶点集合，E＝{e1,e2,…,eq}为q条加权边集合，W＝{w1,w2,…,wq}为q条加权边的权值集合。

[0016] 进一步的，所述步骤102用社区发现算法将高维文本数据的相关特征聚类包括步骤；初始化每个特征，将每个特征视为一个独立类簇，得到类簇集S＝{s1,s2,…,sk}，其中k表示形成k个类簇；

[0017] 依据Sim(fi,C)降序排序，选取max(Sim(fi,C))的特征作为起始点，搜索特征fi所有邻近特征所在的类簇sj，并分别计算该特征和各个邻近类簇的关联性增益ΔLoc_Simfi，如果ΔLoc_Simfi大于阈值T3，且为最大值，则将特征合并到该类簇中，形成新的类簇，反之，则不变：

[0018] 直到所有特征都被划分到新的类簇中，并更新G；直到各个类簇间的差异度ΔGlo_Sim最大。

[0019] 进一步的，所述特征fi和各个邻近类簇的关联性增益计算公式为：

[0020]

[0021] 其中ΣSim(fi,sj)表示特征fi与类簇sj中所关联边的权重之和；∑Sim(sj,)为所有与类簇sj相关联的边之权重和；∑Sim(fi,)为所有与特征fi相关联的边总权重；ΣSim为图G中所有特征边的权重总和。

[0022] 进一步的，所述步骤103采用最大相关最小冗余原则搜索经过步骤102特征聚类的加权无向图的类簇空间，剔除类簇内的冗余特征具体包括：

[0023] 假设聚类后每个类簇sl，其中l∈[1,k]，如果对于fi∈sl，存在Sim(fi,fj)<μ+δ&&Sim(fi,C)

[0024] 进一步的，步骤104评价分类性能挑选出最佳特征子集包括：

[0025] 剔除冗余特征后，在每个类簇内根据相关性Sim(fi,C)选择出Topw个特征组成最优特征子集，考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。

[0026] 进一步的，所述分类精确度的计算公式为：

[0027]

[0028] 其中Acc表示分类准确度，TP：被判定为正样本，事实上也是正样本，TN：被判定为负样本，事实上也是负样本，FP：被判定为正样本，但事实上是负样本，FN：被判定为负样本，但事实上是正样本。

[0029] 本发明的优点及有益效果如下：

[0030] 本发明中，由于不相关特征会影响聚类算法效率以及分类精度，因此剔除不相关特征能有效地去除噪声数据。同时构造加权图体现特征间内部分布情况，有利于社区发现对特征进行聚类，并在一定程度上消除聚类的盲目性。进而以“最大相关最小冗余”原则搜索类簇空间，剔除冗余特征，最后依据特征与类别的关系组合最佳特征子集，从而能在一定程度上避免过拟合现象，解决选择最佳特征子集个数的盲目性问题，使分类结果具有更高的准确性和稳定性。

实施方案

[0035] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

[0036] 本发明的技术方案如下：

[0037] 参考图1，图1为本发明实施例提供的一种基于图聚类的高维文本数据特征选择方法流程图，具体包括：

[0038] 文本数据集具有高维小样本、高噪声、高冗余以及样本分布不均衡等特点，这些特点为相应的分析方法和工具的开发带来了极大的挑战。因此，本实施例中，主要采用文本数据来展开讨论。参考图2，图2为本发明实施例提供的高维文本数据特征选择方法流程图。

[0039] 如何评价待选特征是特征降维的关键问题之一。所述特征与类别间的关系，主要是利用改进的信息增益IG作为相关性度量准则。由于信息增益IG偏向于具有更多取值的特征，因此可通过规范化信息增益来确保其具有可比性。

[0040] 根据基于熵的信息理论概念，一个随机变量x的不确定性可以用熵H(x)衡量，如公式(1)所示，其中p(xi)为x的先验概率。

[0041]

[0042] 两个变量x和y，当y已知的条件下，变量x中剩余的不确定性用公式(2)条件熵H(x|y)表示，其中p(xi|yi)为x的条件概率。

[0043]

[0044] x熵值的变化反映了在给定y的条件下x的额外信息，并将其称为信息增益IG(x|y)，计算公式如(3)所示。

[0045]

[0046] 为了弥补信息增益对多值特征的偏差，并试图消除其随机性，可通过均值和标准差进行修正。其计算公式如(4)所示，其中μ，δ分别表示均值和标准差。其中Sim(x,y)∈[0,1]，对于任意的两个变量都具有对称性。当取值为1时，表明任一值的信息都可以完全预测出另外一个值，即两者完全相关，在数据集中所包含的信息量相同；当取值为0时，表示两者完全独立。由此可见，其值越大，表明两个特征间的依赖性越大，冗余性越大，所包含的相同信息也越多。用该公式能够分别计算出特征与类别间，以及特征间的相关性。

[0047]

[0048] 步骤1：首先计算特征与类别间的相关性。假设存在数据集D＝{F,C}，其中F＝{f1,f2,…,fn}特征集，n为特征维度，C为类别标签集。每个特征fi∈F，对于类别标签集C，利用相关性Sim(fi,C)衡量特征与类别间的关系，并进行降序排序；

[0049] 步骤2：剔除不相关特征。为了既能够选取适量的特征个数，降低时间复杂度提高算法性能，又兼顾特征相关性的分布情况，本发明采用双重阈值法剔除特征。即设定两个阈值T1，T2，其中T1用于控制算法性能，T2体现特征相关性的分布情况。阈值T1，T2分别设为和μ+δ。分别计算特征在两个阈值控制下剔除不相关特征后留下的特征个数m1，m2，则最终保留的特征个数为m＝min{m1，m2}，其中m<＝n；

[0050] 步骤3：构造无向加权图：参考图3，图3为本发明实施例提供的加权图G。将留下的特征集F＝{f1,f2,…,fm}，构造加权无向图G＝{V,E,W}。V＝{v1,v2,…,vm}为m个特征集合构成的顶点集，E＝{e1,e2,…,eq}为q条特征间边的集合构成加权边集，W＝{w1,w2,…,wq}为q条特征边的相关性Sim(fi,fj)集合构成的权值集。

[0051] 通过步骤3构建加权图G后，为了能快速构造出类簇间相关度低，类簇内相关度高的特征子集，并在一定程度上消除聚类的盲目性，本实施例采用社区发现算法进行聚类。该算法是基于图理论知识，能够反映特征内部分布结构，并在一定程度上消除聚类的盲目性。

[0052] 步骤4：对于社区网络加权图G＝{V,E,W}，其中V＝{v1,v2,…,vm}为顶点集合，E＝{e1,e2,…,eq}为q条加权边集合，W＝{w1,w2,…,wq}为q条加权边的权值集合。初始化每个特征，将每个特征视为一个独立类簇，得到类簇集S＝{s1,s2,…,sk}，其中k表示形成k个类簇；

[0053] 步骤5：依据Sim(fi,C)降序排序，选取max(Sim(fi,C))的特征作为起始点，搜索特征fi所有邻近特征所在的类簇sj，并分别计算该特征和各个邻近类簇的关联性增益如果大于阈值T3，且为最大值，则将特征合并到该类簇中，形成新的类簇。此处设置T3＝0.5，该取值可视实验数据而定；反之，则不变：

[0054]

[0055] 其中∑Sim(fi,sj)表示特征fi与类簇sj中所关联边的权重之和；ΣSim(sj,)为所有与类簇sj相关联的边之权重和；ΣSim(fi,)为所有与特征fi相关联的边总权重；∑Sim为图G中所有特征边的权重总和；

[0056] 步骤6：重复执行步骤5，直到所有特征都被划分到新的类簇中，并更新G；

[0057] 步骤7：继续执行步骤4～6，直到各个类簇间的差异度ΔGlo_Sim最大。

[0058]

[0059] 其中为特征fi所在的类簇号；表示特征fi与fj是否同在一个类簇内，是则返回值为1，否则为0。用其来衡量聚类的质量，其值越大则说明聚类效果越好。

[0060] 步骤8：剔除冗余数据。通过步骤4～7将特征集F＝{f1,f2,…,fm}聚类得到类簇集合S＝{s1,s2,…,sk}，并进一步剔除每个类簇内的冗余特征。所述以“最大相关最小冗余”原则搜索类簇空间，剔除类簇内冗余特征。由于剔除冗余特征可提高数据质量和数据泛化能力。因此聚类后对于每个类簇sl，其中l∈[1,k]，分别依据“最大相关最小冗余”原则剔除冗余特征，旨在结合特征与类别综合评价冗余特征，从而有效地避免异常特征对分类结果的影响。换言之，如果对于fi∈sl，存在Sim(fi,fj)<μ+δ&&Sim(fi,C)

[0061] 步骤9：挑选最佳特征子集。参考图4，图4为本发明实施例提供的最佳特征子集选择流程图。为了消除选择最佳特征子集个数的盲目性，所述根据特征与类别间的关系组合出最佳特征子集，主要是在剔除冗余特征后，在每个类簇内根据相关性Sim(fi,C)选择出Top w个特征组成最优特征子集。本实施例中设定w的取值大小为[1,10]，步长为1。所述w值的选取影响数据的分类精确度，同时不同的数据集所选取的w值也不同。据此，本实施例中考虑分类器在同一数据集下得到的最优分类精确度确定所选取的最终w值。

[0062] 所述分类精确度计算公式如下，其能够定量地评价算法的准确定和有效性。

[0063]

[0064] 其中TP：被判定为正样本，事实上也是正样本。TN：被判定为负样本，事实上也是负样本。FP：被判定为正样本，但事实上是负样本。FN：被判定为负样本，但事实上是正样本。

[0065] 以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

附图说明

[0031] 图1是本发明提供优选实施例提供的一种基于图聚类的高维文本数据特征选择方法流程图；

[0032] 图2为本发明实施例提供的高维文本数据特征选择方法流程图；

[0033] 图3为本发明实施例提供的加权图G；

[0034] 图4为本发明实施例提供最佳的特征子集选择流程图。

1基于大数据漏洞挖掘的挖掘评估方法及AI漏洞挖掘系统 2用于联合大数据挖掘的业务预测分析方法及AI挖掘系统 3基于数据挖掘的网络入侵检测方法 4基于数据挖掘的农产品智能推荐系统 5一种基于大数据挖掘技术的韩语发音纠正系统 6一种基于ASP平台的金属制品质量数据挖掘系统 7基于大数据分析的浮动车伴随行为模式挖掘方法 8一种制造系统数据挖掘模型的容错辨识方法及装置 9适于电子商务的业务操作行为大数据挖掘方法及系统 10服务于个性化推送服务的大数据挖掘方法及AI推荐系统