[0043] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0044] 本发明解决上述技术问题的技术方案是:
[0045] 实施例一
[0046] 参考图1,图1为本实施例提供的一种基于主动学习的文本数据标注方法流程图 ,具体包括:
[0047] 101对已标记的文本数据集flag和未标记的文本数据集imflag进行处理:对已标记的文本数据flag进行聚类处理,并标注每个类簇的中心点的值;
[0048] 所述对已标记的文本数据集flag进行聚类处理是指对于已标记的文本数据集flag样本,根据每一个文本数据样本的标签值进行聚类,相近且类别相同的样本划分成一类,本实验聚类的类簇个数为k,类簇集合表示为{f1,f2,…,fk},并求出每一个类簇的簇中心点的值{a1,a2,…,ak}。
[0049] 所述对未标记数据集imflag采用基于聚类的线性扫描查找,特殊的查找方式以减少计算距离的次数的非常现实的问题为目的
[0050] 102利用多个不同的分类器对未标记文本数据集imflag进行分类。用已标记文本数据集flag样本分别训练M个不同的分类器,并用线性回归模型对这M个分类器进行模型融合,确定每个分类器的权重(i1,i2,…,iM),之后使用这M个分类器结合各自权重对未标记数据进行分类 统计每一个未标记的文本样本的分类结果和分类分歧。
[0051] 所述多个不同的分类器对未标记数据进行分类是指采用M个分类器,本实验中选取的是决策树、神经网络、支持向量机(SVM)和朴素贝叶斯。
[0052] 103选出分歧高的文本数据:根据102获得每一个分类器对未标记数据集 imflag的分类结果,然后把每一个未标记数据的分类结果进行融合,选取分歧大于阈值的数据并做标记处理。
[0053] 所述将分歧定义为样本融合后的最终分类类别P和M个基分类器分类类别是否相同,相同分歧为0,不相同为1,
[0054] 104对分歧熵低的数据进行人工标记:对标记数据进行人工标记。
[0055] 所述对标记数据进行人工标记是指对103选出的信息熵低于阈值T1的样本数据进行人工的标注,人为的判断此样本数据的标签值。在大数据的背景下,这样可以减少人为标注的工作量。
[0056] 对于已标记数据集flag分别建立决策树、神经网络、支持向量机(SVM)、朴素贝叶斯和随机森林分类模型,然后对每一个未标记文本数据进行分类,之后输出分类结果和置信度,根据每个分类器输出的置信度求平均。
[0057] 比如未标记文本数据在5个分类器中输出的结果为{y1=1,y2=1,y3=1,y4=0, y5=0},其对应的置信度分别为{c1=0.7,c2=0.6,c3=0.8,c4=0.1,c5=0.2},经过线性回归模型后,确定的每个分类器的权重为{r1=0.2,r2=0.1,r3=0.1,r4=0.5,r5=0.1},则该样本的最终置信度C=0.2*0.7+0.1*0.6+0.1*0.8+0.5*0.1+0.1*0.2=0.35,为=0,此样本的分歧为1+1+1+0+0=3,且大于阈值T1(T1=5/2),因此把此未标记数据标记,后续进行人工标记,人为的判断该未标记文本数据的标签值。反之,如果算出的分歧较低,且小于阈值T1,则样本类别为最终置信度决定的类别P。
[0058] 105对人工标记进行自检:设置一种自检机制对人工标记的数据进行判断,以防止人工标记出现较大的误差。如图2所示的一种人工标注的自检系统:
[0059] 自检过程如下:
[0060] i某人工标注样本g基于权利要求1查找到的最近邻N个样本X={x1, x2,…,xn},如果g的近邻样本都已标注,则继续;如果近邻样本存在未标记数据,则跳过并重新选取人工标记数据。
[0061] ii计算每一个人工标记数据与101聚类好的已标记数据的簇类中心的距离和簇类半径的差值结果前m个最小值集合W={Rr1,Rr2,…,Rrm}保存这些簇的真实类别(Y1,Y2,Y3,…,Ym);根据公式(1)计算根据已标记样本确定的样本类别影响因子。
[0062]
[0063]
[0064] 其中e表示标签值(Y1,Y2,Y3,…,Ym)中Yi=1的个数,t表示标签值(Y1,Y2,Y3,…,Ym)中Yi=0的个数。
[0065] iii根据在未标记数据选取的近邻样本数据{x1,x2,…,xk},统计其已标记的标签值{p1,p2,…,pk}其中pi∈(1,0),并算取每一个样本数据离人工标记数据的距离{d1,d2,…,dk},根据公式(3) 和(4)分别计算未标记数据样本对该样本权重类别的影响因子。
[0066]
[0067]
[0068] 其中f表示标签值{p1,p2,…,pk}中pi=1的个数,g表示标签值{p1,p2,…,pk} 中pi=0的个数。
[0069] iv根据ii,iii步骤,根据公式(5)算取自检模块分析出的该样本类别y, (其中如果i=0,N=g,如果i=1,N=f)。
[0070] 如果自检结果y与人工标记的存在差异,则重新将该样本放入队列提醒进行重新人工标记。
[0071]
[0072] 假设对人工标记的文本样本数据di进行自检,如图2所示的一种人工标注的自检系统:
[0073] 假设左图为已标注数据聚类结果中,距离待自检样本最近的m=3个聚簇,待自检样本距A簇最短距离为平均值为3,距离B簇平均最短距离为1。
[0074] 右图为未标记样本聚类结果中查找到的k=5个最近邻样本,样本周围5个样本的类别已经被标注为3个A,2个B。且平均距离A类为3,距离B类样本平均距离为4。
[0075] 根据公式计算后,
[0076] ω′A=1/4
[0077] ω′B=3/4
[0078] ωA=4/7
[0079] ωB=3/7
[0080] A的类别概率为1/4*4/7*3=12/28
[0081] B的类别概率为3/4*3/7*2=18/28
[0082] 自检系统认为该样本为B类,如果人工标注为A类则需要重新加入队列重新标注,否则则不需要。
[0083] 以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。