首页 > 专利 > 中国计量大学 > 一种基于多模态动态路由的短视频点击率预测方法专利详情

一种基于多模态动态路由的短视频点击率预测方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2020-11-17

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-02-09

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-07-06

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2040-11-17

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202011283162.2	申请日	2020-11-17
公开/公告号	CN112256918B	公开/公告日	2021-07-06
授权日	2021-07-06	预估到期日	2040-11-17
申请年	2020年	公开/公告年	2021年
缴费截止日
分类号	G06F16/735 、G06F16/78 、G06N3/08	主分类号	G06F16/735
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	2
权利要求数量	3	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2016.03.17CN 111125537 A,2020.05.08黄静等.一种基于胶囊网络的图像检索方法《.电脑与电信》.2020,(第6期),14-18,56. 高旭旭.基于深度学习的分类预测算法研究及实现《.中国优秀硕士学位论文全文数据库信息科技辑》.2019,(第09期),I140-155.;
引用专利	US2016074737A	被引证专利
专利权维持	2	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	中国计量大学	第一申请人	中国计量大学
专利权人	中国计量大学	当前专利权人	中国计量大学
发明人	顾盼	第一发明人	顾盼
地址	浙江省杭州市下沙高教园区学源街258号	邮编	310018
申请人数量	1	发明人数量	1
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

摘要

本发明公开了一种基于多模态动态路由的短视频点击率预测方法。该方法分别从短视频的不同模态信息抽取用户的兴趣，然后再融合用户在多模态空间下抽取出的多兴趣，预测用户对目标短视频的点击率。本方法主要由四个部分组成：第一部分构建短视频图网络，并把短视频多模态特征分别输入图网络，更新短视频多模态特征表征；第二部分根据短视频多模态特征，采用胶囊网络生成用户在不同模态下的兴趣表征；第三部分融合不同模态下的兴趣表征，生成用户兴趣表征；第四部分根据用户的多兴趣向量表征，预测用户对目标短视频的点击率。

摘要附图
说明书附图：图1
说明书附图：图2

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-07-06	授权
2	2021-02-09	实质审查的生效	IPC(主分类): G06F 16/735 专利申请号: 202011283162.2 申请日: 2020.11.17
3	2021-01-22	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于多模态动态路由的短视频点击率预测方法，其特征在于：
根据所有用户的历史点击行为序列，构建短视频图网络T；
把短视频多模态特征分别输入短视频图网络T，更新多模态特征表征；对于当前用户的点击行为序列X＝[x1，…，xn]，其中短视频xj由和两种模态构成，是短视频的封面图特征向量，是短视频的文本特征向量，模态特征向量的长度是d；把
短视频封面图特征和文本特征分别输入图网络，生成多模态特征表征其中p∈{a，b}；和更新方法相同，为了描述方便，以下公式略去p∈{a，b}，令：
其中，k代表在图网络T中的搜索深度，k的最大深度由搜索深度参数L控制；代表节点xj在k层的向量表征，模态a和模态b的分别被初始化为和短视频的多模态特征表征即是不同模态特征 p∈{a，b}在短视频图网络中更新深度L之后的 B(j)为
短视频图网络T中短视频xj的邻居集合，按照图T边由大到小排序采样sampling获得；非线性函数f表示将节点xj的邻居节点信息融合到节点xj中；
根据短视频多模态特征生成用户在不同模态下的兴趣表征 p∈{a，b}；
和更新方法相同且参数不共享，令：
其中，p∈{a，b}，是当前用户点击行为序列X＝[x1，…，xn]的第j个短视频胶囊到兴趣胶囊i的转换矩阵，兴趣胶囊i的个数是M；用户兴趣表征的向量长度为d；g是胶囊网络中常用的squash向量激活函数；是连接系数，代表的权重，参数采用如下动态路由算法更新
其中，是输入胶囊j到输出胶囊i的连接系数且初始化为0；
融合不同模态下的兴趣表征 p∈{a，b}，生成用户兴趣表征vi；
其中，为从短视频封面图像特征抽取出的第i个兴趣表征，是短视频文本特征抽取出的第i个兴趣表征；参数和参数W1，W2，W′1，控制每个兴趣表征的
权重，d代表兴趣表征的维度，参数b1、是偏置向量；σ是sigmoid激活函数；
根据用户兴趣表征vi，预测用户对目标短视频的点击率：
其中，vi为用户的第i个兴趣表征，xnew为目标短视频向量表征；参数和参数W1，控制每个兴趣表征的权重，d既是短视频模态特征向量的长度又是用户兴趣表征的长度，参数c是偏置参数；和是转移矩阵，是偏置向量，b2是偏
置标量；σ是sigmoid激活函数；
根据模型特性，设计损失函数；通过用户对目标短视频的点击率预测值计算预测值和真实值y之间的误差，进而使用误差来更新模型参数；采用交叉熵损失函数来指导模型参数的更新过程：
其中，y∈{0，1}是真实值，代表用户是否点击了目标短视频；σ是sigmoid函数；最后采用Adam优化器更新模型参数。

2.根据权利要求1所述的一种基于多模态动态路由的短视频点击率预测方法，其特征在于：所述短视频图网络T构造方法为：
为了捕捉短视频和短视频之间的转移关系，我们从所有用户的历史点击行为序列中构τ τ τ
建短视频图网络T；给定一个用户u历史点击行为序列x ＝[x1，…，xl]，l是用户u的行为序τ
列x的长度，任一短视频xj为图T的节点，(xj‑1，xj)为图网络T的边，(xj‑1，xj)表示一个用户点击短视频xj‑1后点击短视频xj；图的边数值属性为边(xj‑1，xj)出现的次数；为了降低在线计算复杂度，采用离线文件存储每个节点在图网络T中的邻居节点。

3.根据权利要求1所述的一种基于多模态动态路由的短视频点击率预测方法，其特征在于：所述非线性函数f为：
k
其中，B(j)为短视频图网络T中短视频xj的邻居集合，W 是图参数，σ为sigmoid函数，CONCAT表示向量连接操作；AGGREGATE函数采用的最大池化max‑pooling方法：
其中，B(j)为短视频图网络T中短视频xj的邻居集合，Wpool是网络参数，b是偏置向量bias vector，σ为sigmoid函数；max代表元素级别的max操作，可以有效捕捉邻居的各个方面属性。

说明书

技术领域

[0001] 本发明属于互联网服务技术领域，具体涉及一种基于多模态动态路由的短视频点击率预测方法

背景技术

[0002] 短视频是一种新型的且时间较短的视频。短视频的拍摄不需要使用专业设备，也不需要专业技巧。用户直接通过手机就可以很方便地进行拍摄和上传到短视频平台，因此短视频平台的短视频数量增长得非常快。这使得对有效短视频推荐系统的需求非常迫切，有效的短视频推荐系统可以提升用户体验和用户黏性，从而给平台带来巨大的商业价值。

[0003] 近些年，很多研究者提出了基于视频的个性化推荐方法。这些方法可以分为三类：协同过滤、基于内容的推荐和混合推荐方法。但是相比于视频，短视频有着不同的特点：时长较短且用户在一段时间内的交互序列较长。因此，短视频推荐是一个更具有挑战性的任务，并且有研究者提出了一些方法。例如，Li等人将图网络和LSTM结构融合一起，进而更好地模拟用户的偏好；Chen等人利用分层的注意力机制去计算物品和类目这两种级别的重要性，得到更准确的预测结果。

[0004] 尽管这些方法取得不错的结果，但是忽视了对短视频单一模态特征的准确性表达。用户在上传短视频的视频内容时，会同时配上概括性的标题描述，用户对短视频的不同模态可能会产生不同情感，例如，用户可能喜欢某个短视频的主图，但是不喜欢该短视频的文本内容。把短视频的不同模态信息融合一块来表示短视频，无法细粒度地捕捉用户的兴趣。因此本方法分别从短视频的不同模态信息抽取用户的兴趣，然后再融合用户在多模态空间下抽取出的多兴趣，预测用户对目标短视频的点击率。

发明内容

[0005] 基于上述，本发明提供了一种基于多模态动态路由的短视频点击率预测方法。它根据用户的对短视频的点击序列信息，挖掘出用户的兴趣特征，预测用户对目标短视频的点击率。

[0006] 一种基于多模态动态路由的短视频点击率预测方法，包括如下步骤：

[0007] 根据所有用户历史交互序列，构建短视频图网络。为了捕捉短视频和短视频之间的转移关系，我们从所有用户序列中构建物品图网络T。给定一个用户交互序列X＝[x1，…，xn]，任一短视频xj为图网络T的节点，(xj‑1，xj)为图网络T的边，(xj‑1，xj)表示一个用户点击短视频xj‑1后点击短视频xj。图的边数值属性为边(xj‑1，xj)出现的次数。为了降低在线计算复杂度，本发明采用离线文件存储每个节点在图网络T中的邻居节点。

[0008] 把短视频多模态特征分别输入图网络T，更新多模态特征表征。对于一个用户的点击行为序列X＝[x1，…，xn]，其中短视频xj由和两种模态构成，是短视频的封面图特征向量，是短视频的文本特征向量，d是模态特征向量的长度。把短视频封面图特征和文本特征分别输入图网络，生成多模态特征表征其中p∈{a，b}。
和更新方法相同，为了描述方便，以下公式略去p∈{a，b}，令：

[0009]

[0010] 其中，k代表在图网络T中的搜索深度，k的最大深度由搜索深度参数L控制。代表节点xj在k层的向量表征，模态a和模态b的分别被初始化为和短视频的多模态特征表征即是不同模态特征在短视频图网络中更新深度L之后的 B(j)为短视频图网络T中短视频xj的邻居集合，按照图T边由大到小排序采样(sampling)获得。
非线性函数f表示将节点xj的邻居节点信息融合到节点xj中，函数f具体为：

[0011]

[0012]

[0013] 其中，B(j)为短视频图网络T中短视频xj的邻居集合，Wk是图参数，σ为sigmoid函数，CONCAT表示向量连接操作。AGGREGATE函数采用的最大池化(max‑pooling)方法：

[0014]

[0015] 其中，B(j)为短视频图网络T中短视频xj的邻居集合，Wpool是网络参数，b是偏置，σ为sigmoid函数。max代表元素级别的max操作，可以有效捕捉邻居的各个方面属性[0016] 根据短视频多模态特征生成用户在不同模态下的兴趣表征和更新方法相同且参数不共享，令：

[0017]

[0018]

[0019] 其中，p∈{a，b}，是用户序列的第j个短视频胶囊到兴趣胶囊i的转换矩阵，兴趣胶囊i的个数是M。是连接系数，代表的权重，参数采用动态路由算法更新。g是胶囊网络中常用的向量激活函数(squash)，公式如下：

[0020]

[0021] 其中，||·||代表向量的长度。原先应用在图像领域的胶囊网络中的动态路由算法用于分类，本方法用于聚类，即将表示相同兴趣的短视频特征聚合到一起。为了更适合推荐应用场景，进一步改进的更新方式，原先的动态路由计算方式为：

[0022]

[0023] 改进之后的动态路由计算方式为：

[0024]

[0025] 其中，是输入胶囊j到输出胶囊i的连接系数且初始化为0。相比于原来的动态路由更新算法，本方法更改了动态路由算法的归一化(normalization)方式，使之更适合兴趣的聚类。

[0026] 融合不同模态下的兴趣表征生成用户兴趣表征vi。

[0027]

[0028]

[0029]

[0030] 其中，为从短视频封面图像特征抽取出的第i个兴趣表征，是短视频文本特征抽取出的第i个兴趣表征。参数和参数控制每个兴趣表征的权重，d代表兴趣表征的维度，参数是偏置向量。σ是sigmoid激活函数。

[0031] 根据用户兴趣表征，预测用户对目标短视频的点击率。根据用户兴趣表征vi，预测目标短视频xnew的点击率。给定用户兴趣胶囊vi，计算用户点击目标短视频xnew的概率为：

[0032] αi＝qT·σ(W1·vi+W2·xnew+c)

[0033]

[0034]

[0035] 其中，vi为用户的第i个兴趣表征，xnew为目标短视频。参数和参数控制每个兴趣表征的权重，d代表兴趣表征的维度，参数c是偏置参数。
和是转移矩阵，是偏置向量，b2是偏置标量。σ是sigmoid激活函
数。

[0036] 根据模型特性，设计损失函数。通过用户对目标短视频的点击率预测倍计算预测值和真实值y之间的误差，进而使用误差来更新模型参数。我们采用交叉熵损失函数来指导模型参数的更新过程：

[0037]

[0038] 其中，y∈{0，1}是真实值，代表用户是否点击了目标短视频。σ是sigmoid函数。我们采用Adam优化器更新模型参数。

[0039] 为了验证本发明在短视频点击率预测中的技术效果，我们采用公开的短视频数据做实验，从指标AUC、P@50、R@50和F@50上来看，效果较最新的点击率预测方法有了显著的提升。本发明的有益技术效果如下：

[0040] (1)本发明通过所有用户历史交互序列，构建关于短视频的图网络，对短视频的单一模态信息进行了更准确的表征。

[0041] (2)本发明提出了一种基于多模态动态路由的短视频点击率预测方法，该方法改进动态路由算法，从用户的序列信息中抽象出用户的兴趣点，进而得到更准确的预测。

[0042] (3)本发明分别从短视频的不同模态信息抽取用户的兴趣，然后再融合用户在多模态空间下抽取出的多兴趣，预测用户对目标短视频的点击率。

实施方案

[0045] 为了更为具体地描述本发明，下面结合附图及具体实施方案对本发明的技术方案进行详细说明。

[0046] 短视频点击率预测任务是建立一个模型去预测用户点击短视频的概率。用户历史序列表示为其中xj代表第j个短视频，l是序列的长度。因此，短视频点击率预测问题可以表示成：输入用户点击序列以及目标短视频xnew，来预测用户对目标短视频xnew的点击率。

[0047] 为此，本发明提出了一种基于多模态路由选择的短视频点击率预测方法。它分别从短视频的不同模态信息抽取用户的兴趣，然后再融合用户在多模态空间下抽取出的多兴趣，预测用户对目标短视频的点击率。本方法主要由四个部分组成，如图2所示。第一部分构建短视频图网络，并把短视频多模态特征分别输入图网络，更新短视频多模态特征表征；第二部分根据短视频多模态特征，采用胶囊网络生成用户在不同模态下的兴趣表征；第三部分融合不同模态下的兴趣表征，生成用户兴趣表征；第四部分根据用户的多兴趣向量表征，预测用户对目标短视频的点击率。

[0048] 如图1所示，按照本发明的一个实施例，本方法包括如下步骤：

[0049] S100，根据所有用户历史交互序列，构建短视频图网络。为了捕捉短视频和短视频之间的转移关系，我们从所有用户序列中构建物品图网络T。给定一个用户交互序列X＝[x1，…，xn]，任一短视频xj为图网络T的节点，(xj‑1，xj)为图网络T的边，(xj‑1，xj)表示一个用户点击短视频xj‑1后点击短视频xj。图的边数值属性为边(xj‑1，xj)出现的次数。为了降低在线计算复杂度，本发明采用离线文件存储每个节点在图网络T中的邻居节点。

[0050] S200，把短视频多模态特征分别输入图网络T，更新多模态特征表征。对于一个用户的点击行为序列X＝[x1，…，xn]，其中短视频xj由和两种模态构成，是短视频的封面图特征向量，是短视频的文本特征向量，d是模态特征向量的长度。把短视频封面图特征阳文本特征分别输入图网络，生成多模态特征表征其中p∈{a，b}。和更新方法相同，为了描述方便，以下公式略去p∈{a，b}，令：

[0051]

[0052] 其中，k代表在图网络T中的搜索深度，k的最大深度由搜索深度参数L控制。代表节点xj在k层的向量表征，模态a和模态b的分别被初始化为和短视频的多模态特征表征即是不同模态特征在短视频图网络中更新深度L之后的 B(j)为短视频图网络T中短视频xj的邻居集合，按照图T边由大到小排序采样(sampling)获得。
非线性函数f表示将节点xj的邻居节点信息融合到节点xj中，函数f具体为：

[0053]

[0054]

[0055] 其中，B(j)为物品图网络T中短视频xj的邻居集合，Wk是图参数，σ为sigmoid函数，CONCAT表示向量连接操作。AGGREGATE函数采用的最大池化(max‑pooling)方法：

[0056]

[0057] 其中，B(j)为物品图网络T中短视频xj的邻居集合，Wpool是网络参数，b是偏置，σ为sigmoid函数。max代表元素级别的max操作，可以有效捕捉邻居的各个方面属性

[0058] S300，根据短视频多模态特征生成用户在不同模态下的兴趣表征和更新方法相同且参数不共享，令：

[0059]

[0060]

[0061] 其中，p∈{a，b}，是用户序列的第j个短视频胶囊到兴趣胶囊i的转换矩阵，兴趣胶囊i的个数是M，本方法中通过实验验证设置为3。是连接系数，代表的权重，参数采用动态路由算法更新。g是胶囊网络中常用的向量激活函数(squash)，公式如下：

[0062]

[0063] 其中，||·||代表向量的长度。原先应用在图像领域的胶囊网络中的动态路由算法用于分类，本方法用于聚类，即将表示相同兴趣的短视频特征聚合到一起。为了更适合推荐应用场景，进一步改进的更新方式，原先的动态路由计算方式为：

[0064]

[0065] 改进之后的动态路由计算方式为：

[0066]

[0067] 其中，是输入胶囊j到输出胶囊i的连接系数且初始化为0。相比于原来的动态路由更新算法，本方法更改了动态路由算法的归一化(normalization)方式，使之更适合兴趣的聚类。

[0068] S400，融合不同模态下的兴趣表征生成用户兴趣表征vi。

[0069]

[0070]

[0071]

[0072] 其中，为从短视频封面图像特征抽取出的第i个兴趣表征，是短视频文本特征抽取出的第i个兴趣表征。参数和参数控制每个兴趣表征的权重，d代表兴趣表征的维度，参数b1、是偏置向量。σ是sigmoid激活函数。

[0073] S500，根据用户兴趣表征，预测用户对目标短视频的点击率。根据用户兴趣表征vi，预测目标短视频xnew的点击率。给定用户兴趣胶囊vi，计算用户点击目标短视频xnew的概率为：

[0074] αi＝qT·σ(W1·vi+W2·xnew+c)

[0075]

[0076]

[0077] 其中，vi为用户的第i个兴趣表征，xnew为目标短视频。参数阳参数控制每个兴趣表征的权重，d代表兴趣表征的维度，参数c是偏置参数。
和是转移矩阵，是偏置向量，b2是偏置标量。σ是sigmoid激活函
数。

[0078] S600，根据模型特性，设计损失函数。通过用户对目标短视频的点击率预测值计算预测值阳真实值y之间的误差，进而使用误差来更新模型参数。我们采用交叉熵损失函数来指导模型参数的更新过程：

[0079]

[0080] 其中，y∈{0，1}是真实值，代表用户是否点击了目标短视频。σ是sigmoid函数。我们采用Adam优化器更新模型参数。

[0081] 上述对实施例的描述是为方便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

附图说明

[0043] 图1为本发明方法的流程示意图；

[0044] 图2为本发明方法的模型框架图。

1基于互联网和数字技术的信息优化处理方法及服务器 2基于人工智能的互联网用户整合方法及大数据服务系统