首页 > 专利 > 杭州电子科技大学 > 一种基于点击特征预测的图像分类方法专利详情

一种基于点击特征预测的图像分类方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2018-03-12
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2018-11-06
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2020-07-17
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2038-03-12
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201810199059.6 申请日 2018-03-12
公开/公告号 CN108647691B 公开/公告日 2020-07-17
授权日 2020-07-17 预估到期日 2038-03-12
申请年 2018年 公开/公告年 2020年
缴费截止日
分类号 G06K9/46G06N3/04G06N3/08 主分类号 G06K9/46
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 2
权利要求数量 3 非专利引证数量 1
引用专利数量 2 被引证专利数量 0
非专利引证 1、全文. 俞俊等.基于用户点击数据的细粒度图像识别方法概述《.南京信息工程大学学报(自然科学版)》.2017,第9卷(第6期),第567-574页.;
引用专利 CN106919951A、US5594468A 被引证专利
专利权维持 4 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 谭敏、俞俊、张宏源 第一发明人 谭敏
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 3
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
浙江千克知识产权代理有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
裴金华
摘要
本发明公开了一种基于点击特征预测的图像分类方法。本发明步骤如下:1、借助有文本点击信息的图像数据集;利用分词技术及词频‑逆向文件频率算法构建每张图片的文本点击特征向量;2、在源点击数据集下,以最小化点击特征预测误差为目标,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类;3、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练深度视觉与词嵌入模型;4、通过反向传播算法对步骤2中的网络参数进行训练,直至整个网络模型收敛。本发明使得预测的点击特征更为准确。
  • 摘要附图
    一种基于点击特征预测的图像分类方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-07-17 授权
2 2018-11-06 实质审查的生效 IPC(主分类): G06K 9/46 专利申请号: 201810199059.6 申请日: 2018.03.12
3 2018-10-12 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于点击特征预测的图像分类方法,其特征在于包括如下步骤:
步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,所述的借助有文本点击信息的图像数据集,是指利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,具体如下:
步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量,其中M代表点击数据中文本的个数;
步骤(1)中的特征向量构建的过程如下:
将M个文本解析为单词,并选取点击次数最多的前N个单词作词基,N≤M,利用tf-idf算法为每张图片构建点击特征;其中具体公式如下:
其中,ni,j是单词i出现在文本j中出现次数,而∑ini,j是文本j中所有单词出现次数的总和;D是文本集中的文本j出现的总数,Di是包含单词i的文本数;
步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,在视觉特征的词嵌入模型基础上,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类,所述的在视觉特征的词嵌入模型上构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,具体如下:
2-
1.非线性词嵌入模型是指将原始的视觉深度学习模型输出的视觉特征x,经过一系列的空间变换矩阵和非线性操作,转化为与点击特征维度相同的预测点击特征 具体公式如下:
其中,E1表示卷积层,包括卷积变换、池化以及线性整流单元(RELU)运算,E2、E3为两个全连接层,分别表征为两个词嵌入转换矩阵,f(·)表示一个非线性操作;
2-
2.构建带位置约束的非线性词嵌入模型是指在构建点击预测的损失函数时,使用融合的点击次数向量和点击文本集误差;针对第i个图像样本,预测误差的具体公式如下:
其中,τ为权重参数, 为第i个样本真实的点击次数特征向量vi与
预测点击特征 之间的误差;而 为点击文本集误差,用来度量预测被点击数据与真实被点击数据A={j|(vi)j≠0}的文本集之间的距离:
其中,∪、\分别表示并集与差集;将公式4重写为如下文本点击有无向量S(·)之间的误差:
b
S(vi)和 分别表示真实的点击有无向量与预测的点击有无向量,x 为向量x对应的二值化向量,S(x)为将x二值化的函数, 为S(x)中的向量,ms′代表向量x和xb的维度;
2-
3.公式(5)中的文本点击有无向量S(x),被如下光滑函数近似:
其中,T、B分别为误差阈值、带宽参数;公式6对特征小于0的部分近似为0值,大于0的部分近似为1;
步骤(3)、构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练所述视觉特征的词嵌入模型;
步骤(4)、通过反向传播算法对步骤(2)中的非线性词嵌入模型的网络参数进行训练,直至构建的非线性词嵌入模型收敛。

2.根据权利要求1所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(3)构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用融合的源、目标数据集训练深度视觉与词嵌入模型,具体如下:
3-
1.多任务是指在优化点击预测模型中,同时最小化预测和分类误差,使其预测的点击特征同时适用于预测和分类任务;针对此问题,构造如下多域损失函数:
其中,yi为样本i真实类别,λ为权重参数,oi和 代表向量的第i和yi个元素;
3-
2.跨模态:分类特征不仅是图片的视觉特征,还融合了预测的文本点击特征,图像的跨模态特征的具体公式如下:
其中,xi是跨模态特征,zi和 分别是经过batch normalization的视觉特征和预测的点击特征,zi,1、zi,2为zi的第1、2个元素, 代表 的第1、2个元素;
3-
3.跨领域:利用源点击数据集进行点击预测,并利用预测的点击特征对目标数据集进行分类;即构建了一个统一的框架实现对两种不同数据集的分类,并通过“图像-点击相关性”模型的迁移,使得没有点击数据的目标数据集也能进行基于用户点击的图像分类;该模型的多域损失函数公式如下:
其中, 表示源点击数据集中的图片, 表示目标数据集中的图片,μ为权衡不同数据集模型的参数。

3.根据权利要求2所述的一种基于点击特征预测的图像分类方法,其特征在于步骤(4)通过反向传播算法对步骤(2)中的非线性词嵌入模型的参数进行训练,直至非线性词嵌入模型收敛,其具体过程如下:
针对以下最优化问题,通过反向传播算法迭代训练,直至模型收敛:
其中,θ*为非线性词嵌入模型的参数。
说明书

技术领域

[0001] 本发明涉及细粒度图像分类及点击数据预测领域,尤其涉及基于点击特征预测的图像分类方法。

背景技术

[0002] 细粒度视觉分类(Fine-Grained Visual Categorization,FGVC)是对视觉上非常相似的目标进行区分的过程,如鸟、狗、花的种类等,这些子类图像在视觉上差距甚小。因此传统的利用图像视觉特征(如轮廓,颜色等)的分类方法无法取得令人满意的效果,并存在较大的“语义鸿沟”。
[0003] 为了解决语义鸿沟,研究者们尝试引入带有语义信息的图像特征。用户点击特征便是其中之一,它是通过搜索引擎(如Google、百度、Bing等)上获取的用户点击数据得到的。通过点击数据,图像可以被表征为查询文本点击次数向量,这种特征向量具有良好的表达语义能力。
[0004] 尽管点击数据具有丰富的语义信息,但目前大多数图像分类数据集不包含点击信息,且收集图片的点击数据需要大量的人工标注且不现实。为了解决这个问题,我们提出了点击特征预测的方法,并利用融合的视觉与预测点击特征进行图像分类。
[0005] 预测出的点击数据具有一定的表达语义信息的能力,并降低了数据收集的难度和人工成本。将其与视觉特征相融合进行图像分类,对促进细粒度图像分类的效果具有一定的可行性和实用性,是值得研究的。此外,点击数据作为目前科研的热门方向,将其应用在图像识别领域使得本发明具有一定的前沿性和创新性,直接从图像本身预测点击特征的方法也使得该发明有更强的现实性和普适性。

发明内容

[0006] 本发明提供了一种基于点击特征预测的图像分类方法,该方法将点击预测和图像分类融合在一个统一的深度神经网络中、完成了一个端到端的深度学习模型,该模型能同时完成点击特征的预测及图像的分类任务,在点击特征预测方面,利用带位置约束的损失函数使得预测出的点击特征更加准确,在图像分类任务方面,利用预测出的点击特征改善分类效果,取得了比仅利用视觉特征分类的模型更好的效果
[0007] 一种基于点击特征预测的图像分类方法,其步骤如下:
[0008] 步骤(1)、借助有文本点击信息的图像数据集,即源点击数据集;利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,所述的借助有文本点击信息的图像数据集,是指利用分词技术及词频-逆向文件频率算法构建每张图片的文本点击特征向量,具体如下:
[0009] 步骤(1)中图像的文本点击信息是指每个图片对应的一个M维点击次数向量,其中M代表点击数据中文本的个数;
[0010] 步骤(1)中的特征向量构建的过程如下:
[0011] 将M个文本解析为单词,并选取点击次数最多的前N个单词作词基,N≤M,利用tf-idf算法为每张图片构建点击特征;其中具体公式如下:
[0012]
[0013] 其中,ni,j是单词i出现在文本j中出现次数,而∑ini,j是文本j中所有单词出现次数的总和。D是文本集中的文本j出现的总数,Di是包含单词i的文本数;
[0014] 步骤(2)、在源点击数据集下,以最小化点击特征预测误差为目标,在视觉特征的词嵌入模型基础上,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,并利用融合的深度视觉与预测点击特征对不含点击信息的任一目标图像集分类,所述的在视觉特征的词嵌入模型上构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征的点击特征预测,具体如下:
[0015] 2-1.非线性词嵌入模型是指将原始的视觉深度学习模型输出的视觉特征x,经过一系列的空间变换矩阵和非线性操作,转化为与点击特征维度相同的预测点击特征 具体公式如下:
[0016]
[0017] 其中,E1表示卷积层,包括卷积变换、池化以及线性整流单元(RELU)运算,E2、E3为两个全连接层,分别表征为两个词嵌入转换矩阵,f(·)表示一个非线性操作。
[0018] 2-2.构建带位置约束的非线性词嵌入模型是指在构建点击预测的损失函数时,使用融合的点击次数向量和点击文本集误差;针对第i个图像样本,预测误差的具体公式如下:
[0019]
[0020] 其中,τ为权重参数, 为第i个样本真实的点击次数特征向量vi与预测点击特征 之间的误差;而 为点击文本集误差,用来度量预测被点击数据与真实被点击数据 的文本集之间的距离:
[0021]
[0022] 其中,∪、\分别表示并集与差集;将公式4重写为如下文本点击有无向量S(·)之间的误差:
[0023]
[0024]
[0025] S(vi)和 分别表示真实的点击有无向量与预测的点击有无向量,xb为向量x对b应的二值化向量,S(x)为将x二值化的函数, 为S(x)中的向量,mj代表x和x的维度;
[0026] 2-3.将公式(5)中的文本点击有无向量S(x),被如下光滑函数近似:
[0027]
[0028] 其中,T、B分别为误差阈值、带宽参数。公式6对特征小于0的部分近似为0值,大于0的部分近似为1。
[0029] 步骤(3)构建多任务、跨模态迁移深度学习框架,在同时最小化分类与预测损失下,利用源点击数据集、目标数据集训练所述视觉特征的词嵌入模型;具体如下:
[0030] 3-1.多任务是指在优化点击预测模型中,同时最小化预测和分类误差,使其预测的点击特征同时适用于预测和分类任务。针对此问题,构造如下多域损失函数:
[0031]
[0032] 其中,yi为样本i真实类别,λ为权重参数,oi和 代表向量的第i和yi个元素。
[0033] 3-2.跨模态:分类特征不仅是图片的视觉特征,还融合了预测的文本点击特征,图像的跨模态特征的具体公式如下:
[0034]
[0035] 其中,xi是跨模态特征,zi和 分别是经过batch normalization的视觉特征和预测的点击特征,zi,1、zi,2为zi的第1、2个元素, 代表 的第1、2个元素。
[0036] 3-3.跨领域:利用源点击数据集进行点击预测,并利用预测的点击特征对目标数据集进行分类。即构建了一个统一的框架实现对两种不同数据集的分类,并通过“图像-点击相关性”模型的迁移,使得没有点击数据的目标数据集也能进行基于用户点击的图像分类。该模型的多域损失函数公式如下:
[0037]
[0038] 其中, 表示源点击数据集中的图片, 表示目标数据集中的图片,μ为权衡不同数据集模型的参数。
[0039] 步骤(4)通过反向传播算法对步骤(2)中的非线性词嵌入模型的网络参数进行训练,直至非线性词嵌入收敛,其具体过程如下:
[0040] 针对以下最优化问题,通过反向传播算法迭代训练,直至模型收敛:
[0041]
[0042] 其中,θ*为深度网络模型参数。
[0043] 本发明有益效果:
[0044] 本发明对大部分数据集没有点击信息的现实问题,提出了利用预测点击特征进行图像分类,一定程度上解决了图像识别中的“语义鸿沟”问题,同时,提出了一个统一框架将点击特征预测和图像分类融合到了一个网络模型中,实现了端对端的多任务跨模态的迁移神经网络训练。此外,点击数据作为目前的研究热点,合理的使用也使得本发明更具有科研前沿性和创新性,点击数据直接从原图像预测的特性也使得该发明有更强的现实性和普适性,我们提出的改善的点击数据预测方法也使得预测的点击特征更为准确。

实施方案

[0049] 下面结合附图对本发明做进一步具体说明。
[0050] 如图1所示,本发明提供一种基于点击特征预测的图像分类方法。
[0051] 步骤(1)所述的步骤(1)所述的借助有图像文本点击的数据集,利用分词技术及tf-idf为每张原数据图片构建点击特征,具体如下:
[0052] 1-1.为了满足实验需求,我们利用微软提供的进行狗种分类的点击图像数据集Clickture-Dog。该数据集有344类狗的图片,我们过滤图片数少于5张的种类,最后得到283组共95,041张图片。考虑到原始图像数据噪声太多,我们对图像进行了数据清洗的操作。
[0053] 1-2.首先,我们用vgg16对95,041张图片进行训练,得到一个狗图片的VGG检测器。然后我们综合利用图片的点击次数、图片的可靠性、图片的数量对图片数据进行清洗。具体过程如下:1当图片小于8张时全部保留;2当类图片数小于100张时,点击量前一半属于该类概率大于0.2则被选中,后一半大于0.4则被选中,3当图片数大于300张时,点击量前一半属于该类概率大于0.4则被选中,后一半大于0.6则被选中,4其他情况则参考《W.Feng and D.Liu“, Fine-grained image recognition from click-through logs using deep siamese network,”in International Conference on Multimedia Modeling,2017,pp.127–138.》,点击量前一半属于该类概率大于0.3则被选中,后一半大于0.5则被选中,最后选出近32,691张图片。下表1是图片清洗前和清洗后用VGG网络得到的准确率,可以看出数据清洗后预测准确度有明显上升,证明图片清洗有效。
[0054] 表1
[0055]   TOP1 TOP5原始图片 62.8% 86.6%
清洗后图片 67.0% 88.0%
[0056] 1-3.将所选择的图片的点击矩阵与文本拿出,对点击文本进行切词处理,最终在26万多个文本中得到进39,482个单词,考虑到每个单词的点击次数和模型大小,最终选中点击量最多的1000个单词作为词基。
[0057] 1-4.将每张图片视为一段文档,利用tf-idf算法,将每张图片用1000维的点击特征进行表示。考虑到目标数据只有129类,将原数据也选取到129类,并考虑到数据的平衡性,大于300张的种类只取300张,最后得到129类19,833张图片,按照2∶1∶1划分训练验证测试集。
[0058] 1-5.将目标数据集中的12,358张图片同样按照2∶1∶1划分训练、验证和测试集。
[0059] 步骤(2)所述的在视觉特征的词嵌入模型基础上,构建带位置约束的非线性词嵌入模型,从而实现基于视觉特征进行点击特征预测,具体如下:
[0060] 构建点击特征预测通道,其中如附图中的图2所示,前半部分我们使用的传统的卷积神经网络,具体来说我们使用的是VGG-S,图片经过VGG-S得到了图片的视觉特征xi,经过公式2转化为预测的点击特征 在这里,为了确定E1的形式,我们比对了几种非线性词嵌入的结构,包括两个全连接层(biFC),卷积加一个全连接层(CONV+FC),卷积加两个全连接层(CONV+biFC),并与传统的线性词嵌入结构(FC)进行了对比,结果如下表2。可看出,我们最终选择的卷积加两层全连接的非线性嵌入结构所预测出的点击,在分类任务上表现的更好。
[0061] 表2
[0062]方法 FC biFC CONV+FC CONV+biFC
源数据(%) 63.0 68.7 68.9 69.8
目标数据(%) 44.2 54.0 51.6 56.4
[0063] 在确定非线性词嵌入的结构之后,我们用公式6中的损失函数对点击特征预测通道进行训练,其中公式6中所包含的公式5中的函数S(x),其中参数T、B,经过实验,B=0.01、T=0.1时,效果最好。而公式6中的参数,经过实验,τ的取值定为0.1。最终,我们比较了原始点击数据,未加入位置条件约束的点击预测以及加入位置条件约束的点击预测的特征数据,如下图4所示,可以看出,在加入了位置条件约束后,预测的点击特征更为准确了。
[0064] 为了证明带位置约束的非线性词嵌入结构的效果以及融合预测点击和视觉特征的效果,我们比较了单纯的视觉特征(V)、线性的词嵌入结构预测出的点击特征(C1)、不带位置约束的非线性词嵌入结构预测出的点击特征(CE)、带位置约束的非线性词嵌入结构预测出的点击特征(C),融合视觉特征与线性的词嵌入结构预测出的点击特征(V+C1),融合视觉特征与不带位置约束的非线性词嵌入结构预测出的点击特征(V+CE),融合视觉特征与带位置约束的非线性词嵌入结构预测出的点击特征(V+C)进行了对比,如下表3所示。结果证明了预测的点击数据对图像分类效果有一定的提升,并且我们提出的带位置约束的非线性词嵌入结构在融合视觉特征后表现最为优秀。
[0065] 表3
[0066] 方法 V C1 CE C V+C1 V+CE V+C源数据(%) 76.5 63.0 69.8 69.7 76.4 76.6 77.5
目标数据(%) 70.7 44.2 56.4 58.6 71.3 71.6 72.2
[0067] 步骤(3)所述的构建多任务、跨模态迁移深度学习框架,同时训练视觉特征的词嵌入模型。模型中,同时最小化分类与预测损失,并将有、无点击数据的样本进行融合训练网络,具体如下:
[0068] 根据附图2构建深度学习模型,最后该模型的损失函数为公式9,其中τ、B、T参数在步骤2中已经确定,而μ经过实验,最终取值为0.9。
[0069] 步骤(4)所述的通过反向传播算法对步骤(2)中的网络参数进行训练,直至非线性词嵌入模型收敛,具体如下:
[0070] 4-1.根据公式10的最优化问题,在已经构建好的深度学习模型上进行反向传播训练,直至非线性词嵌入模型收敛。初始时,学习率为0.001,采用mini-batch的方法,每一个batch的大小为128张图片,迭代10000次,学习率下降采用固定步数下降法,即每迭代2000次学习率乘上0.1。
[0071] 4-2.测试非线性词嵌入模型。在非线性词嵌入模型训练完成后,我们用测试数据作为检测标准在最后的模型上测试了准确率,并以同样的数据在一些传统的方法上进行测试,得到的准确率对比结果见下表。从表4中可以看出,我们发明的方法对图形分类效果有明显的提升。
[0072] 表4
[0073]方法 SVM VGGimg VGGsrc TDL Ours
原数据(%) 73.9 76.5 76.5 77.5 77.7
目标数据(%) 64.4 70.7 72.2 72.2 76.0
[0074] 表中SVM是传统机器学习中的支持向量机算法,该方法使用的特征是VGG-S深度学习模型提取出的视觉特征。VGGimg是直接在传统VGG-S深度学习模型上进行分类,但参数的初始化是利用网络上公开的已经训练好的模型进行的。VGGsrc同样是直接在VGG-S深度学习模型上进行训练,但是它的参数初始化时已经利用我们的原数据进行预训练,“TDL”是指直接将图像的视觉特征和预测出的点击特征融合去训练一个softmax分类器。“Ours”即本文所提出的方法。

附图说明

[0045] 图1是本发明方法的具体流程示意图。
[0046] 图2是本发明方法中预测点击特征时的非线性词嵌入模型。
[0047] 图3是本发明方法中构造的网络框架示意图。
[0048] 图4为本发明预测的点击特征示意图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号