[0049] 下面结合附图对本发明做进一步具体说明。
[0050] 如图1所示,本发明提供一种基于点击特征预测的图像分类方法。
[0051] 步骤(1)所述的步骤(1)所述的借助有图像文本点击的数据集,利用分词技术及tf-idf为每张原数据图片构建点击特征,具体如下:
[0052] 1-1.为了满足实验需求,我们利用微软提供的进行狗种分类的点击图像数据集Clickture-Dog。该数据集有344类狗的图片,我们过滤图片数少于5张的种类,最后得到283组共95,041张图片。考虑到原始图像数据噪声太多,我们对图像进行了数据清洗的操作。
[0053] 1-2.首先,我们用vgg16对95,041张图片进行训练,得到一个狗图片的VGG检测器。然后我们综合利用图片的点击次数、图片的可靠性、图片的数量对图片数据进行清洗。具体过程如下:1当图片小于8张时全部保留;2当类图片数小于100张时,点击量前一半属于该类概率大于0.2则被选中,后一半大于0.4则被选中,3当图片数大于300张时,点击量前一半属于该类概率大于0.4则被选中,后一半大于0.6则被选中,4其他情况则参考《W.Feng and D.Liu“, Fine-grained image recognition from click-through logs using deep siamese network,”in International Conference on Multimedia Modeling,2017,pp.127–138.》,点击量前一半属于该类概率大于0.3则被选中,后一半大于0.5则被选中,最后选出近32,691张图片。下表1是图片清洗前和清洗后用VGG网络得到的准确率,可以看出数据清洗后预测准确度有明显上升,证明图片清洗有效。
[0054] 表1
[0055] TOP1 TOP5原始图片 62.8% 86.6%
清洗后图片 67.0% 88.0%
[0056] 1-3.将所选择的图片的点击矩阵与文本拿出,对点击文本进行切词处理,最终在26万多个文本中得到进39,482个单词,考虑到每个单词的点击次数和模型大小,最终选中点击量最多的1000个单词作为词基。
[0057] 1-4.将每张图片视为一段文档,利用tf-idf算法,将每张图片用1000维的点击特征进行表示。考虑到目标数据只有129类,将原数据也选取到129类,并考虑到数据的平衡性,大于300张的种类只取300张,最后得到129类19,833张图片,按照2∶1∶1划分训练验证测试集。
[0058] 1-5.将目标数据集中的12,358张图片同样按照2∶1∶1划分训练、验证和测试集。
[0059] 步骤(2)所述的在视觉特征的词嵌入模型基础上,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征进行点击特征预测,具体如下:
[0060] 构建点击特征预测通道,其中如附图中的图2所示,前半部分我们使用的传统的卷积神经网络,具体来说我们使用的是VGG-S,图片经过VGG-S得到了图片的视觉特征xi,经过公式2转化为预测的点击特征 在这里,为了确定E1的形式,我们比对了几种非线性词嵌入的结构,包括两个全连接层(biFC),卷积加一个全连接层(CONV+FC),卷积加两个全连接层(CONV+biFC),并与传统的线性词嵌入结构(FC)进行了对比,结果如下表2。可看出,我们最终选择的卷积加两层全连接的非线性嵌入结构所预测出的点击,在分类任务上表现的更好。
[0061] 表2
[0062]方法 FC biFC CONV+FC CONV+biFC
源数据(%) 63.0 68.7 68.9 69.8
目标数据(%) 44.2 54.0 51.6 56.4
[0063] 在确定非线性词嵌入的结构之后,我们用公式6中的损失函数对点击特征预测通道进行训练,其中公式6中所包含的公式5中的函数S(x),其中参数T、B,经过实验,B=0.01、T=0.1时,效果最好。而公式6中的参数,经过实验,τ的取值定为0.1。最终,我们比较了原始点击数据,未加入位置条件约束的点击预测以及加入位置条件约束的点击预测的特征数据,如下图4所示,可以看出,在加入了位置条件约束后,预测的点击特征更为准确了。
[0064] 为了证明带位置约束的非线性词嵌入结构的效果以及融合预测点击和视觉特征的效果,我们比较了单纯的视觉特征(V)、线性的词嵌入结构预测出的点击特征(C1)、不带位置约束的非线性词嵌入结构预测出的点击特征(CE)、带位置约束的非线性词嵌入结构预测出的点击特征(C),融合视觉特征与线性的词嵌入结构预测出的点击特征(V+C1),融合视觉特征与不带位置约束的非线性词嵌入结构预测出的点击特征(V+CE),融合视觉特征与带位置约束的非线性词嵌入结构预测出的点击特征(V+C)进行了对比,如下表3所示。结果证明了预测的点击数据对图像分类效果有一定的提升,并且我们提出的带位置约束的非线性词嵌入结构在融合视觉特征后表现最为优秀。
[0065] 表3
[0066] 方法 V C1 CE C V+C1 V+CE V+C源数据(%) 76.5 63.0 69.8 69.7 76.4 76.6 77.5
目标数据(%) 70.7 44.2 56.4 58.6 71.3 71.6 72.2
[0067] 步骤(3)所述的构建多任务、跨模态迁移深度学习框架,同时训练视觉特征的词嵌入模型。模型中,同时最小化分类与预测损失,并将有、无点击数据的样本进行融合训练网络,具体如下:
[0068] 根据附图2构建深度学习模型,最后该模型的损失函数为公式9,其中τ、B、T参数在步骤2中已经确定,而μ经过实验,最终取值为0.9。
[0069] 步骤(4)所述的通过反向传播算法对步骤(2)中的网络参数进行训练,直至非线性词嵌入模型收敛,具体如下:
[0070] 4-1.根据公式10的最优化问题,在已经构建好的深度学习模型上进行反向传播训练,直至非线性词嵌入模型收敛。初始时,学习率为0.001,采用mini-batch的方法,每一个batch的大小为128张图片,迭代10000次,学习率下降采用固定步数下降法,即每迭代2000次学习率乘上0.1。
[0071] 4-2.测试非线性词嵌入模型。在非线性词嵌入模型训练完成后,我们用测试数据作为检测标准在最后的模型上测试了准确率,并以同样的数据在一些传统的方法上进行测试,得到的准确率对比结果见下表。从表4中可以看出,我们发明的方法对图形分类效果有明显的提升。
[0072] 表4
[0073]方法 SVM VGGimg VGGsrc TDL Ours
原数据(%) 73.9 76.5 76.5 77.5 77.7
目标数据(%) 64.4 70.7 72.2 72.2 76.0
[0074] 表中SVM是传统机器学习中的支持向量机算法,该方法使用的特征是VGG-S深度学习模型提取出的视觉特征。VGGimg是直接在传统VGG-S深度学习模型上进行分类,但参数的初始化是利用网络上公开的已经训练好的模型进行的。VGGsrc同样是直接在VGG-S深度学习模型上进行训练,但是它的参数初始化时已经利用我们的原数据进行预训练,“TDL”是指直接将图像的视觉特征和预测出的点击特征融合去训练一个softmax分类器。“Ours”即本文所提出的方法。