[0045] 为了更为具体地描述本发明,下面结合附图及具体实施方案对本发明的技术方案进行详细说明。
[0046] 短视频点击率预测任务是建立一个模型去预测用户点击短视频的概率。用户历史序列表示为 其中xj代表第j个短视频,l是序列的长度。因此,短视频点击率预测问题可以表示成:输入用户点击序列 以及目标短视频xnew,来预测用户对目标短视频xnew的点击率。
[0047] 为此,本发明提出了一种基于多模态路由选择的短视频点击率预测方法。它分别从短视频的不同模态信息抽取用户的兴趣,然后再融合用户在多模态空间下抽取出的多兴趣,预测用户对目标短视频的点击率。本方法主要由四个部分组成,如图2所示。第一部分构建短视频图网络,并把短视频多模态特征分别输入图网络,更新短视频多模态特征表征;第二部分根据短视频多模态特征,采用胶囊网络生成用户在不同模态下的兴趣表征;第三部分融合不同模态下的兴趣表征,生成用户兴趣表征;第四部分根据用户的多兴趣向量表征,预测用户对目标短视频的点击率。
[0048] 如图1所示,按照本发明的一个实施例,本方法包括如下步骤:
[0049] S100,根据所有用户历史交互序列,构建短视频图网络。为了捕捉短视频和短视频之间的转移关系,我们从所有用户序列中构建物品图网络T。给定一个用户交互序列X=[x1,…,xn],任一短视频xj为图网络T的节点,(xj‑1,xj)为图网络T的边,(xj‑1,xj)表示一个用户点击短视频xj‑1后点击短视频xj。图的边数值属性为边(xj‑1,xj)出现的次数。为了降低在线计算复杂度,本发明采用离线文件存储每个节点在图网络T中的邻居节点。
[0050] S200,把短视频多模态特征分别输入图网络T,更新多模态特征表征。对于一个用户的点击行为序列X=[x1,…,xn],其中短视频xj由 和 两种模态构成, 是短视频的封面图特征向量, 是短视频的文本特征向量,d是模态特征向量 的长度。把短视频封面图特征 阳文本特征 分别输入图网络,生成多模态特征表征 其中p∈{a,b}。 和 更新方法相同,为了描述方便,以下公式略去p∈{a,b},令:
[0051]
[0052] 其中,k代表在图网络T中的搜索深度,k的最大深度由搜索深度参数L控制。 代表节点xj在k层的向量表征,模态a和模态b的 分别被初始化为 和 短视频的多模态特征表征 即是不同模态特征 在短视频图网络中更新深度L之后的 B(j)为短视频图网络T中短视频xj的邻居集合,按照图T边由大到小排序采样(sampling)获得。
非线性函数f表示将节点xj的邻居节点信息融合到节点xj中,函数f具体为:
[0053]
[0054]
[0055] 其中,B(j)为物品图网络T中短视频xj的邻居集合,Wk是图参数,σ为sigmoid函数,CONCAT表示向量连接操作。AGGREGATE函数采用的最大池化(max‑pooling)方法:
[0056]
[0057] 其中,B(j)为物品图网络T中短视频xj的邻居集合,Wpool是网络参数,b是偏置,σ为sigmoid函数。max代表元素级别的max操作,可以有效捕捉邻居的各个方面属性
[0058] S300,根据短视频多模态特征 生成用户在不同模态下的兴趣表征和 更新方法相同且参数不共享,令:
[0059]
[0060]
[0061] 其中,p∈{a,b}, 是用户序列的第j个短视频胶囊到兴趣胶囊i的转换矩阵,兴趣胶囊i的个数是M,本方法中通过实验验证设置为3。 是连接系数,代表的权重, 参数采用动态路由算法更新。g是胶囊网络中常用的向量激活函数(squash),公式如下:
[0062]
[0063] 其中,||·||代表向量的长度。原先应用在图像领域的胶囊网络中的动态路由算法用于分类,本方法用于聚类,即将表示相同兴趣的短视频特征聚合到一起。为了更适合推荐应用场景,进一步改进 的更新方式,原先的动态路由计算方式为:
[0064]
[0065] 改进之后的动态路由计算方式为:
[0066]
[0067] 其中, 是输入胶囊j到输出胶囊i的连接系数且初始化为0。相比于原来的动态路由更新算法,本方法更改了动态路由算法的归一化(normalization)方式,使之更适合兴趣的聚类。
[0068] S400,融合不同模态下的兴趣表征 生成用户兴趣表征vi。
[0069]
[0070]
[0071]
[0072] 其中, 为从短视频封面图像特征抽取出的第i个兴趣表征, 是短视频文本特征抽取出的第i个兴趣表征。参数 和参数 控制每个兴趣表征的权重,d代表兴趣表征的维度,参数b1、 是偏置向量。σ是sigmoid激活函数。
[0073] S500,根据用户兴趣表征,预测用户对目标短视频的点击率。根据用户兴趣表征vi,预测目标短视频xnew的点击率。给定用户兴趣胶囊vi,计算用户点击目标短视频xnew的概率为:
[0074] αi=qT·σ(W1·vi+W2·xnew+c)
[0075]
[0076]
[0077] 其中,vi为用户的第i个兴趣表征,xnew为目标短视频。参数 阳参数控制每个兴趣表征的权重,d代表兴趣表征的维度,参数c是偏置参数。
和 是转移矩阵, 是偏置向量,b2是偏置标量。σ是sigmoid激活函
数。
[0078] S600,根据模型特性,设计损失函数。通过用户对目标短视频的点击率预测值 计算预测值 阳真实值y之间的误差,进而使用误差来更新模型参数。我们采用交叉熵损失函数来指导模型参数的更新过程:
[0079]
[0080] 其中,y∈{0,1}是真实值,代表用户是否点击了目标短视频。σ是sigmoid函数。我们采用Adam优化器更新模型参数。
[0081] 上述对实施例的描述是为方便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。