[0049] 为了进一步理解本发明,下面结合具体实施方式对本发明提供的一种基于细粒度的多方面分析的短视频点击率预测方法进行具体描述,但本发明并不限于此,该领域技术人员在本发明核心指导思想下做出的非本质改进和调整,仍然属于本发明的保护范围。
[0050] 短视频点击率预测任务是建立一个模型去预测用户点击短视频的概率。用户的历史序列表示为 其中p∈{+,‑}分别代表点击和未点击行为,xj代表第j个短视频,l是序列的长度。整个序列可以进一步细分为点击序列 和未点击序列也就是正反馈和负反馈信息。因此,短视频点击率预测问题可以表示成:输
入用户点击序列 未点击的序列 以及目标短视频xnew,来预测用户对目标短视频xnew的点击率。
[0051] 为此,本发明提出了一种基于细粒度的多方面分析的短视频点击率预测方法。它根据用户对短视频的点击和未点击序列,预测用户对目标短视频的点击率。这里的用户短视频序列输入的是短视频的封面图向量表征。通常来讲,结合用户的正反馈和负反馈信息来预测用户对目标短视频的点击率,需要判断正反馈和负反馈的相同特征和不同特征。如果是正反馈和负反馈信息中都普遍出现的特征,那么代表用户不看重该特征,也就是特征的重要性较低。如果是正反馈和负反馈信息中的不同特征,那么代表这个特征比较重要,决定了用户是否点击该短视频。本方法细粒度地对用户的正负反馈信息的多方面进行分析,来提高推荐的准确性。
[0052] 本方法主要由五个部分组成,如图2所示。第一部分是将用户行为序列分割成块(block)序列,并在块内采用自注意力机制得到块(block)向量表征。短视频平台中,短视频时间较短且用户的短视频观看行为非常频繁,可以认为序列中连续的短视频具有相近的特征。第二部分是采用长短期记忆网络从块(block)向量表征抽取用户动态兴趣表征。第三部分是利用门机制从用户兴趣表征和目标短视频中抽取多方面(multi‑aspect)特征。第四部分是利用交互注意力机制(interactive attention),得到多方面(multi‑aspect)的重要性,并更新多方面特征。第五部分是利用基于目标短视频的注意力机制,从多方面(multi‑aspect)特征中抽取和目标短视频相关的兴趣向量表征,并预测用户对目标短视频的点击率。
[0053] 如图1所示,按照本发明的一个实施例,本方法包括如下步骤:
[0054] S100,将用户正负反馈信息分块(block),块内采用自注意力机制得到块向量表征。对于一个用户的点击行为序列 可以表示为 其中 是短视频的封面图特征向量,d是特征向量长度。未点击序列可以表示为 因为短视频时
+ ‑
长较短,造成用户的行为序列比较长。所以,本方法用一个长度为w的窗口将序列X以及X分割成m个块,用户在一个块里的交互的短视频往往比较相似。每个块特征表征sj的计算方式如下:
[0055]
[0056] attnji=W0σ(W1xji+W2mj+ba)
[0057]
[0058] sj=tanh(W4mj+bs)
[0059] 其中,用户的正负反馈序列计算方法一致且参数不共享,为了表达简单,以上所有的公式略去表示正负反馈的上标+和‑。xji代表序列中第j个块中的第i个短视频向量表征,sj表示第j个块向量表征,且S={s1,s2,...,sm}表示块序列。attnji代表xji的重要程度。sj=tanh(W4mj+bs)表示在自注意力机制上再加一层MLP,增强模型的非线性。和 是模型需要训练的参数。σ
为sigmoid函数,tanh代表tanh激活函数。
[0060] S200,采用长短期记忆网络从块(block)向量表征抽取用户动态兴趣表征hj。同样,用户的正负反馈序列计算方法一致且参数不共享,为了表达简单,以下所有的公式略去上标+和‑:
[0061] hj=LSTM(sj)
[0062] 其中,sj表示第j个块向量表征。LSTM(sj)表示长短时记忆网络(LSTM)对序列S=(s1,s2,...,sm}进行建模,如下:
[0063] ij=σ(Wisj+uihj‑1+bi)
[0064] fj=σ(Wfsj+ufhj‑1+bf)
[0065] oj=σ(Wosj+uohj‑1+bo)
[0066] cj=iktanh(Wcsj+uchj‑1+bc)+fjcj‑1
[0067] hj=ojcj
[0068] 其中,长短期记忆网络每一层的隐藏状态hj的输出就是用户兴趣表征。sj是当前层的节点输入, 和 分别是控制输入门ij、遗忘门fj和输出门oj的参数。σ为sigmoid函数。所有这些参数和输入:隐层状态hj‑1、当前输入sj共同参与计算,来输出结果hj。
[0069] S300,利用门机制从从用户兴趣表征和目标短视频中抽取多方面(multi‑aspect)特征。短视频由更细粒度的方面(比如,视频场景、视频主题、视频情绪)组成。本方法采用门机制抽取方面特征,下面公式是抽取第j个用户兴趣表征的第k个方面。用户的正负反馈序列计算方法一致且参数共享,为了表达简单,以下所有的公式略去上标+和‑:
[0070] pk,j=hj⊙σ(Wk,1hj+Wk,2qk+bk)
[0071] 其中, 和 是第k个方面的转移矩阵, 是第k个方面的偏置向量。σ是sigmoid激活函数,⊙是元素级别的乘法。hj是从块(block)向量表征抽取的第j个用户兴趣表征,qk是第k个方面表征且qk为所有用户共享。短视频的方面个数M是超参数,本方法中通过实验验证设置为5。得到用户兴趣的每个方面向量表征之后,本方法采用平均池(average pooling)将所有用户兴趣中同一个方面信息聚合:
[0072]
[0073] 其中,m是用户兴趣的个数。最后我们可以从正反馈和负反馈序列中得到M个方面特征 和 采用相同的办法,可以从目标短视频中得到M个方面特征
[0074] S400,利用交互注意力机制(interactive attention),得到多方面(multi‑aspect)的重要性,并更新多方面特征。分析正反馈和负反馈的相同特征和不同特征。如果是正反馈和负反馈信息中都普遍出现的特征,那么代表用户不看重该特征,也就是特征的重要性较低。如果是正反馈和负反馈信息中的不同特征,那么代表这个特征比较重要,决定了用户是否点击该短视频。多方面(multi‑aspect)的重要性计算公式如下:
[0075]
[0076] attnk=softmax(attnk)
[0077] pk=attnkpk
[0078] 其中, 和 分别是从正反馈和负反馈序列中抽取的方面特征。cos三角函数是计算向量相似度的基本公式。且‑cos表示正负反馈相同方面的特征越接近,attnk越小,也就是该方面的重要性越低。反之,正负反馈相同方面的特征差异越大,attnk越大,也就是该方面的重要性越高。softmax是一种正则化方式。
[0079] S500,利用基于目标短视频的注意力机制,从多方面(multi‑aspect)特征中抽取和目标短视频相关的兴趣向量表征。用户的正负反馈序列计算方法一致且参数不共享,为了表达简单,以下所有的公式略去上标+和‑:
[0080]
[0081]
[0082] 其中,pk为序列第k个方面特征, 为目标短视频第k个方面特征。参数 和参数 控制每个方面特征的权重,参数b是偏置参数。σ是sigmoid激活函数。
[0083] S600,根据用户兴趣表征,预测用户对目标短视频的点击率:
[0084]
[0085]
[0086] 其中,v+和v‑分别为用户在正反馈序列和负反馈序列下的兴趣表征,为向量拼接操作。 和 是转移矩阵, 是偏置向量,b2是偏置标量。σ是sigmoid激活函数。
[0087] S700,根据模型特性,设计损失函数。通过用户对目标短视频的点击率预测值 计算预测值 和真实值y之间的误差,进而使用误差来更新模型参数。我们采用交叉熵损失函数来指导模型参数的更新过程:
[0088]
[0089] 其中,y∈{0,1}是真实值,代表用户是否点击了目标短视频。σ是sigmoid函数。我们采用Adam优化器更新模型参数。
[0090] 上述对实施例的描述是为方便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。