首页 > 专利 > 杭州电子科技大学 > 一种基于权重的ML-kNN多标签中文文本分类方法专利详情

一种基于权重的ML-kNN多标签中文文本分类方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2017-08-22
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2018-01-26
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2019-12-24
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2037-08-22
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201710724115.9 申请日 2017-08-22
公开/公告号 CN107526805B 公开/公告日 2019-12-24
授权日 2019-12-24 预估到期日 2037-08-22
申请年 2017年 公开/公告年 2019年
缴费截止日
分类号 G06F16/35G06K9/62 主分类号 G06F16/35
是否联合申请 独立申请 文献类型号 B
独权数量 3 从权数量 1
权利要求数量 4 非专利引证数量 0
引用专利数量 0 被引证专利数量 0
非专利引证
引用专利 被引证专利
专利权维持 5 专利申请国编码 CN
专利事件 许可 事务标签 公开、实质审查、授权、实施许可
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 姜明、张旻、杜炼、汤景凡、程柳 第一发明人 姜明
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 5
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明公开了一种基于权重的ML‑kNN多标签中文文本分类方法。本发明主要为了解决采用ML‑kNN算法对多标签中文文本进行分类时,对于训练集中各类标签数量不均衡的情况或训练样本在空间中分布不均匀的情况容易造成未见示例标签集的误判或者不完整判断的问题。本发明采用的技术方案是,根据训练集中各类标签数量的比重在局部范围内对所有近邻的标签赋予相应的修正权重,然后,在对未见示例标签集进行决策的阶段,根据未见示例与训练示例空间分布的互信息对各标签赋予不同的权重。同时,为了提升分类的效率,本发明在文本正式分类之前对文本做了一定的预分类处理,能有效提升多标签中文文本的分类效率。
  • 摘要附图
    一种基于权重的ML-kNN多标签中文文本分类方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-12-15 专利实施许可合同备案的生效 IPC(主分类): G06F 16/35 合同备案号: X2020330000104 专利申请号: 201710724115.9 申请日: 2017.08.22 让与人: 杭州电子科技大学 受让人: 杭州远传新业科技有限公司 发明名称: 一种基于权重的ML-kNN多标签中文文本分类方法 申请公布日: 2017.12.29 授权公告日: 2019.12.24 许可种类: 普通许可 备案日期: 2020.11.25
2 2019-12-24 授权
3 2018-01-26 实质审查的生效 IPC(主分类): G06F 17/30 专利申请号: 201710724115.9 申请日: 2017.08.22
4 2017-12-29 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于权重的ML-kNN多标签中文文本分类方法,其特征在于包括以下步骤:
步骤1、对待分类的文本进行预分类处理;
步骤2、计算针对标签数量不平衡问题所对应的权重因子;
步骤3、计算针对训练实例在空间中分布所提出的修正权重因子;
步骤4、计算事件Hj成立与不成立的先验概率,分别记为 和 Hj代表未见实例x具有类别标记yj这一事件;
步骤5、计算Hj成立与不成立时,N(x)中有Cj个样本具有类别标记yj的条件概率,分别记为 和 其中N(x)代表x在训练集中的k个近邻样本构成的集合,Cj统计
了N(x)中将yj作为其相关标记的样本个数;
步骤6、结合步骤4和5所计算出的结果,基于ML-kNN算法,得到所需的多标记分类器;
步骤7、结合步骤1得出的预处理结果和步骤6得出的多标记分类器对未分类文本进行分类。

2.根据权利要求1所述的一种基于权重的ML-kNN多标签中文文本分类方法,其特征在于步骤1所述的对待分类的文本进行预分类处理,步骤如下:
1.1首先确定所有类别名称,使用所有类别名称作为原始类别标记集合;
1.2将训练集中所有的文本数据和最新中文维基百科语料库作为模型的语料库,其中中文维基百科语料库需要先做简繁转换处理,然后做分词处理,接着去掉停顿词与低频词,保留名词、名词短语、形容词、动词以及其它可能有实意的词语;
1.3扩充类别标记集合:利用词向量表示模型word2vec,将步骤1.2中语料库内所有的词语用向量的形式表示,而词语在向量空间上的距离能够用来表示词语文本语义上的相似度,用word2vec将语料库中与原始类别标记集合中类别相似度大于0.9的词语加入类别标记集合,以达到扩充类别标记集合的目的,使得扩充后的类别标记更加有类别表征能力;
1.4由于中文文本的特点,当类别名在文本中出现了,此文本必然和此类别相关;因此检索扩充后的类别标记集合,遍历待分类的所有文本,将文本标记对应的类别标签。

3.根据权利要求2所述的一种基于权重的ML-kNN多标签中文文本分类方法,其特征在于步骤2所述的计算针对标签数量不平衡问题所对应的权重因子,步骤如下:
2.1计算包含l标签的样本个数,即 其中m为训练样本的个数, 表
示实例i存在l标记时值为1,否则值为0;
2.2计算训练样本标签集内各类标签数量的平均数 其中γ=
{y1,y2,…,yq}代表包含q个类别的标记空间,|γ|表示标记空间中类别的个数即q;
2.3针对标签数量不平衡所造成分类误差的问题,定义l标签的权重因子为

4.根据权利要求3所述的一种基于权重的ML-kNN多标签中文文本分类方法,其特征在于步骤3所述的计算针对训练实例在空间中分布所提出的修正权重因子,步骤如下:
3.1由于标准差可以反映实例的总体空间分布情况,所以本发明中用局部空间中包含有同种标签的实例之间的距离标准差作为此类标签的局部标签密度,符号定义为ρ;
3.2根据未见实例所处位置的k个最近邻实例的空间分布,计算k个实例中标签集包含l标签的实例的局部标签密度ρl;
3.3利用未见实例与训练集中k个最近邻实例之间空间分布的互信息,得到未见实例对k个最近邻实例标签集所含各标签的局部标签密度影响强度由低到高的影响强度序列;其中标签l的局部标签密度影响强度具体计算方式为:当未见实例标签集中存在l标签时,l标签新的局部标签密度为ρl′,未见实例的l标签对局部标签密度的影响强度计算方式为
3.4计算针对训练实例在空间中分布所提出的修正权重因子: 其中σ
为权重的修正系数。
说明书

技术领域

[0001] 本发明涉及文本分类领域,具体涉及一种基于权重的ML-kNN多标签中文文本分类方法。

背景技术

[0002] 多标签问题是一种真实世界中常见的现象,如,在文本类别中,某篇新闻稿可能同时包含几个预定的主题如“教育”、“体育”;在图片类别中,某张图片可能同时存在多种情景如“田野”、“山脉”;在生物信息学中,一个基因可能同时具有多种功能如“新陈代谢”、“转录”以及“蛋白质合成”;在音频类别中,某首音乐可能属于多种类别如“快乐”、“高兴”;在视频类别中,某部电影可能同时属于多种类别如“剧情”、“爱情”。由此引出了多标签分类的研究,多标签分类的目标是根据给出的训练示例及其对应的类别标签集合,学习出多标签分类器。基于此,对于任一待分类的示例,分类器可以预测该示例所对应的标签集合。
[0003] 分类器可以被作为是一个学习问题,任务是构建一个学习者。学习者可以将给出的待分类示例分到其对应的类别。然而,由于待分类示例可以同时与多个类别相关联,所以它不是一个二分类或者多分类的问题,它是一个多标签分类问题。
[0004] 传统的多标签分类算法ML-kNN算法采用“k近邻(k-nearest neighbors)”分类准则,统计近邻样本的类别标签信息,通过“最大化后验概率(maximum a posteriori,简记为MAP)”的方式推理未见示例的标记集合,其在训练示例包含的各类别标签的数量不均衡、包含有各类别标签的训练示例在空间中分布不均匀的情况下,可能会造成未见示例标签集的误判或者不完整判断。

发明内容

[0005] 本发明的目的是针对现有技术的不足,提供一种基于权重的ML-kNN多标签中文文本分类方法,以解决传统ML-kNN算法对多标签中文文本进行分类时没有考虑标签数量和训练示例分布的问题。
[0006] 一种基于权重的ML-kNN多标签中文文本分类方法,包括以下步骤:
[0007] 步骤1、对待分类的文本进行预分类处理;
[0008] 步骤2、计算针对标签数量不平衡问题所对应的权重因子;
[0009] 步骤3、计算针对训练示例在空间中分布所提出的修正权重因子;
[0010] 步骤4、基于权重因子,计算事件Hj成立与不成立的先验概率,分别记为 和Hj代表未见示例x具有类别标记yj这一事件;
[0011] 步骤5、计算Hj成立与不成立时,N(x)中有Cj个样本具有类别标记yj的条件概率,分别记为 和 其中N(x)代表x在训练集中的k个近邻样本构成的集合,Cj统计了N(x)中将yj作为其相关标记的样本个数;
[0012] 步骤6、结合步骤4和5所计算出的结果,基于ML-kNN算法,得到所需的多标记分类器;
[0013] 步骤7、结合步骤1得出的预处理结果和步骤6得出的分类器对未分类文本进行分类。
[0014] 步骤1所述的对待分类的文本进行预分类处理,过程如下:
[0015] 1.1首先确定所有类别名称,使用所有类别名称作为原始类别标记集合;
[0016] 1.2将训练集中所有的文本数据和最新中文维基百科语料库作为模型的语料库,其中中文维基百科语料库需要先做简繁转换处理,然后做分词处理,接着去掉停顿词与低频词,保留名词、名词短语、形容词、动词以及其它可能有实意的词语;
[0017] 1.3扩充类别标记集合:利用词向量表示模型word2vec,将步骤1.2中语料库内所有的词语用向量的形式表示,而词语在向量空间上的距离能够用来表示词语文本语义上的相似度,用word2vec将语料库中与原始类别标记集合中类别相似度大于0.9的词语加入类别标记集合,以达到扩充类别标记集合的目的,使得扩充后的类别标记更加有类别表征能力;
[0018] 1.4由于中文文本的特点,当类别名在文本中出现了,此文本必然和此类别相关;因此检索扩充后的类别标记集合,遍历待分类的所有文本,将文本标记对应的类别标签。
[0019] 步骤2所述的计算针对标签数量不平衡问题所对应的权重因子,过程如下:
[0020] 2.1计算包含l标签的样本个数,即 其中m为训练样本的个数,表示实例i存在l标记时值为1,否则值为0;
[0021] 2.2计算训练样本标签集内各类标签数量的平均数 其中γ={y1,y2,…,yq}代表包含q个类别的标记空间,|γ|表示标记空间中类别的个数即q;
[0022] 2.3针对标签数量不平衡所造成分类误差的问题,定义l标签的权重因子为[0023] 步骤3所述的计算针对训练示例在空间中分布所提出的修正权重因子,过程如下:
[0024] 3.1由于标准差可以反应示例的总体空间分布情况,所以本发明中用局部空间中包含有同种标签的示例之间的距离标准差作为此类标签的局部标签密度,符号定义为ρ;
[0025] 3.2根据未见示例所处位置的k个最近邻示例的空间分布,计算k个示例中标签集包含l标签的实例的局部标签密度ρl;
[0026] 3.3利用未见示例与训练集中k个最近邻示例之间空间分布的互信息,得到未见示例对k个最近邻示例标签集所含各标签的局部标签密度影响强度由低到高的影响强度序列;其中标签l的局部标签密度影响强度具体计算方式为:当未见示例标签集中存在l标签时,l标签新的局部标签密度为ρl′,未见示例的l标签对局部标签密度的影响强度计算方式为
[0027] 3.4计算针对训练示例在空间中分布所提出的局部标签密度影响权重:其中σ为权重的修正系数。
[0028] 本发明的优点及有益效果如下:
[0029] 本发明针对多标签分类问题,由于考虑了各类别标签的数量分布情况和训练示例在空间中的分布情况,消除了ML-kNN算法在多标签中文文本分类时所存在的缺陷,提高了多标签分类的效果。同时,在正式分类之前,通过构建和扩充类别标记集合对分类文本做预分类处理,可以极大的提高多标签中文文本分类的效率。

实施方案

[0031] 下面结合附图对本发明作进一步描述。
[0032] 参照图1,一种基于权重的ML-kNN多标签中文文本分类方法,包括以下步骤:
[0033] 1)对待分类的文本进行预分类处理,处理过程如下:
[0034] 1.1)首先确定所有类别名称,使用所有类别名称作为原始类别标记集合;
[0035] 1.2)将训练集中所有的文本数据和最新中文维基百科语料库作为模型的语料库,其中中文维基百科语料库需要先做简繁转换处理,然后做分词处理,接着去掉停顿词(副词、介词等)与低频词,保留名词、名词短语、形容词、动词以及其它可能有实意的词语;
[0036] 1.3)扩充类别标记集合:利用词向量表示模型word2vec,将步骤1.2)中语料库内所有的词语用向量的形式表示,而词语在向量空间上的距离能够用来表示词语文本语义上的相似度,因此本发明中用word2vec将语料库中与原始类别标记集合中类别相似度大于0.9的词语加入类别标记集合,以达到扩充类别标记集合的目的,使得扩充后的类别标记更加有类别表征能力;
[0037] 1.4)由于中文文本的特点,当类别名在文本中出现了,此文本必然和此类别相关。检索扩充后的类别标记集合,遍历待分类的所有文本,将文本标记对应的类别标签。
[0038] 2)计算针对标签数量不平衡问题所对应的权重因子,过程如下:
[0039] 2.1)计算包含l标签的样本个数,即 其中m为训练样本的个数,表示实例i存在l标记(即示例i的标签集中包含有l标签)时值为1,否则值为0;
[0040] 2.2)计算训练样本标签集内各类标签数量的平均数 其中γ={y1,y2,…,yq}代表包含q个类别的标记空间,|γ|表示标记空间中类别的个数即q;
[0041] 2.3)针对标签数量不平衡所造成分类误差的问题,定义l标签的权重因子为因为各类标签的加权因子可能相差比较大,所以作用于全局的话会对分类效果产生较大的影响,所以选择未见示例局部k个最近邻的示例进行加权的方法。
[0042] 3)计算针对训练示例在空间中分布所提出的修正权重因子,过程如下:
[0043] 3.1)由于标准差可以反应示例的总体空间分布情况,所以本发明中用局部空间中包含有同种标签的示例之间的距离标准差作为此类标签的局部标签密度,符号定义为ρ;
[0044] 3.2)根据未见示例所处位置的k个最近邻示例的空间分布,计算k个示例中标签集包含l标签的实例的局部标签密度ρl;
[0045] 3.3)利用未见示例与训练集中k个最近邻示例之间空间分布的互信息,得到未见示例对k个最近邻示例标签集所含各标签的局部标签密度影响强度由低到高的影响强度序列。其中标签l的局部标签密度影响强度具体计算方式为:当未见示例标签集中存在l标签时,l标签新的局部标签密度为ρl′,未见示例的l标签对局部标签密度的影响强度计算方式为
[0046] 3.4)计算针对训练示例在空间中分布所提出的局部标签密度影响权重:其中σ为权重的修正系数。
[0047] 4)考虑步骤2)中计算的权重因子wnum,计算事件Hj成立与不成立的先验概率,分别记为 和 Hj代表未见示例x具有类别标记yj这一事件;
[0048] 5)计算Hj成立与不成立时,N(x)中有Cj个样本具有类别标记yj的条件概率,分别记为 和 其中N(x)代表x在训练集中的k个近邻样本构成的集合,Cj统计了N(x)中将yj作为其相关标记的样本个数;
[0049] 6)结合步骤4)和5)所计算出的结果,基于ML-kNN算法,通过贝叶斯定理计算可得到所需的多标记分类器:
[0050] 7)在利用步骤6)得出的分类器对待分类文本进行分类之前,先直接跳过步骤1)得到的预分类结果中已经得到的标签,然后再对其它未确定标签进行判断。

附图说明

[0030] 图1是本发明所述方法的流程框图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号