首页 > 专利 > 中国计量大学 > 一种考虑重复购买行为的会话推荐方法专利详情

一种考虑重复购买行为的会话推荐方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2021-01-26

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-06-04

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-02-18

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2041-01-26

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202110102234.7	申请日	2021-01-26
公开/公告号	CN112819575B	公开/公告日	2022-02-18
授权日	2022-02-18	预估到期日	2041-01-26
申请年	2021年	公开/公告年	2022年
缴费截止日
分类号	G06Q30/06 、G06F16/9536 、G06F16/2458 、G06F16/332 、G06K9/62 、G06N3/04 、G06N3/08	主分类号	G06Q30/06
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	2
权利要求数量	3	非专利引证数量	1
引用专利数量	0	被引证专利数量	0
非专利引证	1、CN 111242729 A,2020.06.05CN 110956514 A,2020.04.03邓金.基于用户网购行为的个性化推荐算法研究《.中国优秀博硕士学位论文全文数据库(硕士)》.2020,(第1期),第1-66页.;
引用专利		被引证专利
专利权维持	1	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	中国计量大学	第一申请人	中国计量大学
专利权人	中国计量大学	当前专利权人	中国计量大学
发明人	顾盼	第一发明人	顾盼
地址	浙江省杭州市下沙高教园区学源街258号	邮编	310018
申请人数量	1	发明人数量	1
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

摘要

本发明公开了一种考虑重复购买行为的会话推荐方法。该方法建立一个模型对当前会话和用户长期兴趣进行建模，并预测用户点下一个点击的物品。用户在在线平台上往往会有固定的行为习惯，因此本方法提出一种考虑重复购买行为的推荐方法，主要由四个部分组成：第一部分是根据用户当前交互会话序列，得到用户短期、长期兴趣表征和辅助行为(购买)表征。第二部分是根据用户短期和长期兴趣表征，选择重复模式或探索模式。第三部分是在重复模式下，根据用户的短期、长期兴趣表征和辅助行为(购买)表征，在用户历史购买的物品序列中进行推荐。第四部分是在探索模式下，根据用户的短期和长期兴趣表征，对不在用户历史购买的物品序列中的物品进行推荐。

摘要附图
说明书附图：图1
说明书附图：图2

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-02-18	授权
2	2021-06-04	实质审查的生效	IPC(主分类): G06Q 30/06 专利申请号: 202110102234.7 申请日: 2021.01.26
3	2021-05-18	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种考虑重复购买行为的会话推荐方法，其特征在于：
根据用户当前会话中的购买行为序列，得到用户购买行为表征；用户当前会话为ST＝{v1，v2，…，vτ，…，vt}，其中，vτ代表第τ个物品，T表示当前会话的时间段下标，且ST的向量表征为{x1，x2，…，xτ，…，xt}，其中用户当前会话ST中包含了用户购买行为序列|AT|表示序列AT的个数，AT的向量表征为采用平均
池对购买行为序列进行表征，如下：
其中，AT是当前会话中的购买行为序列，是购买行为序列AT中购买的物品，是物品a
的向量表示，|AT|表示序列AT的个数，p是购买行为序列表征；
s
根据用户当前会话，得到用户短期兴趣表征p ；本方法采用门控循环单元网络GRU对用户当前会话进行表征；GRU的输入序列为当前会话ST＝{v1，v2，…，vτ，…，vt}；最后得到当前会话表征为用户短期兴趣表征为当前会话表征
l
更新用户长期兴趣表征p ；用户当前会话所在时间为T，用户历史所有会话表征仍然采用门控循环单元网络GRU结构得到，此时用户历史会话表征序列为
l
用户长期兴趣的序列性不强，因此采用平均池获得用户较为稳定的长期兴趣表征p：
其中，ZT‑1为时间T之前的用户历史会话表征列表，为用户第τ个历史会话表征，|ZT‑1|l
表示序列ZT‑1的个数；p是用户的长期兴趣表征；
根据用户的短期和长期兴趣表征，在重复推荐模式和探索推荐模式中选择；在本方法l
中，基于用户的当前会话ST和用户长期兴趣p ，用户下一个交互物品vt+1的概率P(vt+1|ST，l
p)进一步分解为：
l l l l l
P(vt+1|ST，p)＝P(r|ST，p)P(vt+1|r，ST，p)+P(e|ST，p)P(vt+1|e，ST，p)
l l
其中，r和e分别代表重复模式和探索模式；P(r|ST，p)和P(e|ST，p)代表基于当前会话l l l
ST和用户长期兴趣p ，计算重复模式和探索模式的概率；P(vt+1|r，ST，p)和P(vt+1|e，ST，p)分别代表在重复模式和探索模式下，推荐物品vt+1的概率；判断推荐模式采用重复模式还是l l
探索模式也就是计算概率P(r|ST，p)和P(e|ST，p)；
在重复模式下，根据用户的短期、长期兴趣表征和购买行为表征，在用户历史购买的物品序列中进行推荐；令用户历史购买序列为BT‑1＝{v1，v2，…，vl}，用户历史购买序列BT‑1的向量表征为其中上标a表示购买行为；那么，在重复模式下，用户历史购买的物
l
品的推荐概率P(vτ|r，ST，p)是：
其中，是用户历史购买序列中第τ个物品vτ的向量表征；和
s
是模型参数，在模型训练时更新，共同决定了第τ个物品vτ的重要程度；V代表物品集合；p 、l a l
p和p分别为用户短期、长期兴趣表征以及当前会话中的购买行为表征；从P(vτ|r，ST，p)计算公式中看出，历史购买的物品和当前购买物品越相似，推荐该物品的概率越低；
在探索模式下，根据用户的短期兴趣表征和用户长期兴趣，对不在用户历史购买的物l
品序列中的物品进行推荐，物品推荐概率计算公式P(vτ|e，ST，p)为：
s l
其中，xτ为物品集合V‑BT‑1中的物品vτ的向量表征；p和p分别为用户短期和长期兴趣表l
征；对于vτ∈BT‑1的物品，也就是推荐概率P(vτ|e，ST，p)＝0；
构建损失函数，训练模型参数；采用对数似然损失函数：
l
其中，OT是训练集中所有的会话集合；P(vτ|ST，p)表示基于用户的当前会话ST和用户长l
期兴趣p ，预测用户下一个交互物品vτ的概率，vτ是会话序列中真实交互的物品；我们采用Adam优化器更新模型参数。

2.根据权利要求1所述的一种考虑重复购买行为的会话推荐方法，其中，所述对用户当前交互序列进行表征的门控循环单元网络GRU具体公式为：
zτ＝σ(Wxz·xτ+Whz·hτ‑1)
rτ＝σ(Wxr·xτ+Whr·hτ‑1)
其中，rτ是重置门，zτ为更新门，这两个门控向量决定了哪些信息能作为门控循环单元的输出；是当前记忆内容；xτ是当前层的节点输入；和
分别是控制更新门zτ和重置门rτ的参数；和是控制当前记
忆内容的参数；⊙是元素级别的矩阵相乘，σ是sigmoid函数；当前会话表征为

3.根据权利要求1所述的一种考虑重复购买行为的会话推荐方法，其中，用于判断推荐l l
模式采用重复模式还是探索模式的概率P(r|ST，p)和P(e|ST，p)具体为：
s l
其中，是模型权重参数，p和p 分别是用户动态的短期兴趣表征和静态的长
期兴趣表征；表示向量连接操作，softmax是softmax函数；从公式中看出，选择重复模式和探索模式是一个二分类问题，且是一个软分类问题。

说明书

技术领域

[0001] 本发明属于互联网服务技术领域，尤其是涉及一种考虑重复购买行为的会话推荐方法。

背景技术

[0002] 随着在线服务的发展和流行，在线平台记录着大量的用户行为数据。从海量数据中找出用户最感兴趣的物品并推荐给用户，可以极大地提升用户的满意度和公司的收益。此时，推荐系统显得非常重要。推荐系统可以从海量物品中挖掘出用户最喜欢的物品。

[0003] 传统的推荐方法主要包括三种。一种是一般的推荐系统，从用户和物品之间的历史交互数据中挖掘出用户和物品的静态关联，包括，协同过滤和矩阵分解等方法。这类方法将用户‑物品的交互关系输入到网络中，忽略了用户兴趣的动态变化。第二种是基于物品序列，推荐用户下一个交互的物品，叫做序列推荐方法。会话推荐方法就属于一种序列推荐方法，会话是指一段时间内的用户交互序列。最后一种方法是将前两种方法结合起来，同时对用户的静态的长期兴趣和动态的当前兴趣进行建模，然后再推荐用户下一个交互的物品。本方法在对用户兴趣建模时，同样是采取第三种方法。但是本方法最大的不同点是考虑到用户的重复消费行为。用户在在线平台上会有固定的行为习惯。比如，在电商平台上，用户经常会重复购买固定的商品；在音乐平台上，用户会经常重复听同一首歌曲。Ren等人在论文中提出了重复网络(RepeatNet)来解决重复消费推荐问题，但是该论文提出的解法和问题定义不符。重复网络在介绍(introduction)中提出用户存在重复消费行为，所以在推荐物品时应考虑到用户这一消费规律。但是在方法(method)中，推荐重复的物品是在当前会话中的物品序列中推荐，而用户在短时间内，也就是在一个会话内部重复购买相同的物品的可能性很低。并且该方法没有考虑到用户的长期兴趣，用户长期兴趣是偏向于静态的。如果用户在当前会话中的短期兴趣和用户的长期兴趣重复度很高，那么发生重复购买行为的概率较大。所以在模型中，判断推荐模式是重复模式还是探索模式时，应该同时考虑用户的长期兴趣和用户的短期兴趣。其中，重复模式是指推荐用户历史购买过的物品，探索模式是指推荐用户从未购买过的商品。关于重复行为这个场景的论文或者方法不多，但是工业界已经有相关的应用。如，“淘宝”APP在订单页面会有“常购好货”的功能展示，从该用户历史购买商品中推荐用户当下还有可能购买的商品。

发明内容

[0004] 本方法是一种基于会话的物品点击率预测方法。会话(session)指一段时间内的用户交互的物品序列，会话推荐任务是指基于当前会话中的物品序列，预测用户在当前会话中下一个感兴趣的物品。用户的当前会话可以表示为ST＝{x1,x2,…,xτ,…,xt}，其中，xτ代表第τ个物品。预测用户在当前会话中下一个感兴趣的物品用数学语言可以表示为P(xt+1|ST)，其中，P(xt+1|ST)表示基于用户的当前会话ST，用户下一个交互物品xt+1的概率。将用户行为序列划分成会话更符合用户行为规律，一般来讲，用户在一个会话中会有特定的目的。会话和会话之间会有一个较长时间间隔(time gap)，如，淘宝将时间间隔设置为三十分钟。
现在越来越多的方法，在基于会话推荐时，会同时将用户过去一段时间内的交互行为作为信息补充考虑进来，用于捕捉用户的长期兴趣，来提升推荐的准确度。此时，推荐物品的概l l
率变成P(xt+1|ST,p)，其中p表示用户的长期兴趣。

[0005] 对于用户的重复消费行为的研究工作较少。而用户在在线平台上会有固定的行为习惯。Ren等人提出了重复网络(RepeatNet)来解决重复消费推荐问题，但是该论文提出的解法和问题定义不符。重复网络在介绍(introduction)中提出用户存在重复消费行为，所以在推荐物品时应考虑到用户这一消费规律。但是在方法(method)中，推荐重复的物品是在当前会话中的物品序列中推荐，而用户在短时间内，也就是在一个会话内部重复购买相同的物品的可能性很低。并且该方法没有考虑到用户的长期兴趣，用户长期兴趣是偏向于静态的。如果用户在当前会话中的短期兴趣和用户的长期兴趣重复度很高，那么发生重复购买行为的概率较大。所以在模型中，判断推荐模式是重复模式还是探索模式时，应该同时考虑用户的长期兴趣和用户的短期兴趣。其中，重复模式是指推荐用户历史购买过的物品，探索模式是指推荐用户从未购买过的商品。为此，本发明采用以下技术方案：

[0006] 一种考虑重复购买行为的会话推荐方法，包括以下步骤：

[0007] 根据用户当前交互会话序列中的辅助行为(auxiliary behavior)序列，得到用户辅助行为(购买)表征。用户当前交互的会话可以表示为ST＝{x1,x2,…,xτ,…,xt}，其中，xτ代表第τ个物品，T表示当前会话的时间段下标,且ST的向量表征为{x1,x2，…，xτ，…，xt}，其中 d是物品向量表征的长度。ST表示当前会话中所有交互的物品序列，其中，购买行为序列为且 AT的向量表征为购买行为序列的表征对于重复模式下的物品推荐至关重要，因为用户在短时间内，也就是在一个会话内，进行重复消费的可能性较低。通常，在推荐系统中，把交互序列中的交互类型叫做目标类型(target type),把购买行为类型叫做辅助类型(auxiliary type)。采用平均池(mean‑pooling)对购买行为序列进行表征，如下：

[0008]

[0009] 其中，AT是当前会话中的购买行为序列，是购买行为序列AT中购买的物品，是a物品的向量表示，|AT|表示序列AT的个数，p是购买行为序列表征。

[0010] 根据用户当前交互会话序列，得到用户短期兴趣表征ps。本方法采用门控循环单元网络(GRU)对用户当前交互序列进行表征：

[0011] zτ＝σ(Wxz·xτ+Whz·hτ‑1)

[0012] rτ＝σ(Wxr·xτ+Whr·hτ‑1)

[0013]

[0014]

[0015] 其中，rτ是重置门(reset gate)，zτ为更新门(update gate)，这两个门控向量决定了哪些信息能作为门控循环单元的输出。是当前记忆内容。xτ是当前层的节点输入。和分别是控制更新门zτ和重置门rτ的参数。
和是控制前记忆内容的参数。⊙ 是元素级别的矩阵相乘，σ是
sigmoid函数。GRU的输入序列为ST＝{x1,x2，…,xτ,…,xt}。最后，当前会话序列表征为用户短期兴趣(short‑term interest)表征为前会话序列表征

[0016] 更新用户长期兴趣(long‑term interest)表征pl。用户当前会话所在时间为T，用户历史所有会话表征仍然采用门控循环单元网络(GRU)结构得到，此时用户历史会话表征序列为用户长期兴趣的序列性不强，因此采用平均池(mean‑l
pooling)获得用户较为稳定的长期兴趣表征p：

[0017]

[0018] 其中，ZT‑1为时间T之前的用户历史会话表征列表，zτ为第τ个用户历史会话表征，|lZT‑1|表示序列ZT‑1的个数。p是用户的长期兴趣表征。

[0019] 根据用户的短期和长期兴趣表征，在重复推荐模式和探索推荐模式中选择。在本l方法中，基于用户的当前会话ST和用户长期兴趣p ，用户下一个交互物品xt+1的概率P(xt+1|l
ST，p)可以进一步分解为：

[0022]s l

[0023] 其中，是模型权重参数，p和p分别是用户动态的短期兴趣表征和静态的长期兴趣表征。表示向量连接操作，softmax是softmax函数，在本方法是一个二分类方法。从公式中可以看出，选择重复模式(repeat mode)和探索模式(explore mode)是一个二分类问题，且是一个软分类(soft classification)问题。

[0024] 在重复模式下，根据用户的短期、长期兴趣表征和辅助行为(购买)表征，在用户历史购买的物品序列中进行推荐。令用户历史消费序列为BT‑1＝{x1，x2，…，xl}，用户历史消费序列BT‑1的向量表征为其中上标a表示购买行为(auxiliary behavior)。那l
么，在重复模式下，用户历史购买的物品的推荐概率P(xτ|r，ST，p)是：

[0025]

[0026]

[0027]

[0028] 其中，是用户历史消费序列中第τ个物品xτ的向量表征，且Wrs，Wrl，和s l a是模型参数，共同决定了第τ个物品xτ的重要程度，V代表物品集合。p 、p和p分别为用户短期、长期兴趣表征以及当前会话中的辅助(消费)行为表征。从公式中可以看出，历史购买的物品和当前购买物品越相似，推荐该物品的概率越低。

[0029] 在探索模式下，根据用户的短期兴趣表征和用户长期兴趣，对不在用户历史购买l的物品序列中的物品进行推荐,物品推荐概率计算公式P(xτ|e，ST，p)为：

[0030]

[0031]

[0032] 其中，xτ为物品集合V‑BT‑1中的物品xτ的向量表征。ps和pl分别为用户短期和长期l兴趣表征。对于xτ∈BT‑1的物品，也就是推荐概率P(xτ|e，ST，p)＝0。

[0033] 构建损失函数，训练模型参数。采用对数似然损失函数：

[0034]l

[0035] 其中，是训练集中所有的会话序列。P(xτ|ST，p)是上文中提到的概率，表示基于l用户的当前会话ST和用户长期兴趣p，预测用户下一个交互物品xτ的概率，xτ是会话序列中真实交互的物品。我们采用Adam优化器更新模型参数。

[0036] 本发明的有益技术效果如下：

[0037] (1)本发明是一种同时对用户长期兴趣和短期兴趣进行建模的方法。同时考虑到用户短期兴趣的动态变化性和用户长期兴趣的稳定性。

[0038] (2)本发明考虑到用户的重复消费行为，并在判断推荐模式是重复模式还是探索模式时，同时考虑用户的长期兴趣和用户的短期兴趣，更符合用户决策规律。

[0039] (3)本发明考虑到用户的重复消费行为，并在重复模式下推荐历史购买过的物品时，对用户当前会话中的购买行为进行表征，因为在一个会话内重复购买相同物品的可能性很低。

实施方案

[0042] 为了进一步理解本发明，下面结合具体实施方式对本发明提供的一种考虑重复购买行为的会话推荐方法进行具体描述，但本发明并不限于此，该领域技术人员在本发明核心指导思想下做出的非本质改进和调整，仍然属于本发明的保护范围。

[0043] 会话(session)指一段时间内的用户交互的物品序列，会话推荐任务是指基于当前会话中的物品序列，预测用户在当前会话中下一个感兴趣的物品。用户的当前会话可以表示为ST＝{x1，x2,…，xτ，…,xt}，其中，xτ代表第τ个物品。预测用户在当前会话中下一个感兴趣的物品用数学语言可以表示为P(xt+1|ST)，其中，P(xt+1|ST)表示基于用户的当前会话ST，用户下一个交互物品xt+1的概率。将用户行为序列划分成会话更符合用户行为规律，一般来讲，用户在一个会话中会有特定的目的。会话和会话之间会有一个较长时间间隔(time gap)，如，淘宝将时间间隔设置为三十分钟。现在越来越多的方法，在基于会话推荐时，会同时将用户过去一段时间内的交互行为作为信息补充考虑进来，用于捕捉用户的长期兴趣，l l来提升推荐的准确度。此时，推荐物品的概率变成P(xt+1|ST,p)，其中p表示用户的长期兴趣。

[0044] 传统的推荐方法主要包括三种。一种是一般的推荐系统，从用户和物品之间的历史交互数据中挖掘出用户和物品的静态关联，包括，协同过滤和矩阵分解等方法。这类方法将用户‑物品的交互关系输入到网络中，忽略了用户兴趣的动态变化。第二种是基于物品序列，推荐用户下一个交互的物品，叫做序列推荐方法。会话推荐方法就属于一种序列推荐方法，会话是指一段时间内的用户交互序列。最后一种方法是将前两种方法结合起来，同时对用户的静态的长期兴趣和动态的当前兴趣进行建模，然后再推荐用户下一个交互的物品。本方法在对用户兴趣建模时，同样是采取第三种方法。但是本方法最大的不同点是考虑到用户的重复消费行为。用户在在线平台上会有固定的习惯。比如，在电商平台上，用户经常会重复购买固定的商品；在音乐平台上，用户会经常重复听同一首歌曲。Ren等人提出了重复网络(RepeatNet)来解决重复消费推荐问题，但是该论文提出的解法和问题定义不符。重复网络在介绍(introduction)中提出用户存在重复消费行为，所以在推荐物品时应考虑到用户这一消费规律。但是在方法(method)中，推荐重复的物品是在当前会话中的物品序列中推荐，而用户在短时间内，也就是在一个会话内部重复购买相同的物品的可能性很低。并且该方法没有考虑到用户的长期兴趣，用户长期兴趣是偏向于静态的。如果用户在当前会话中的短期兴趣和用户的长期兴趣重复度很高，那么发生重复购买行为的概率较大。所以在模型中，判断推荐模式是重复模式还是探索模式，应该同时考虑用户的长期兴趣和用户的短期兴趣。其中，重复模式是指推荐用户历史购买过的物品，探索模式是指推荐用户从未购买过的商品。关于重复行为这个场景的论文或者方法不多，但是工业界已经有相关的应用。如，“淘宝”APP在订单页面会有“常购好货”的功能展示，从该用户历史购买商品中推荐用户当下还有可能购买的商品。

[0045] 一种考虑重复购买行为的会话推荐方法的向前传播(forward propagation)部分主要由四个部分组成，如图2所示。第一部分是根据用户当前交互会话序列，得到用户短期、长期兴趣表征和辅助行为(购买)表征。第二部分是根据用户短期和长期兴趣表征，选择重复模式或探索模式。第三部分是在重复模式下，根据用户的短期、长期兴趣表征和辅助行为(购买)表征，在用户历史购买的物品序列中进行推荐。第四部分是在探索模式下，根据用户的短期和长期兴趣表征，对不在用户历史购买的物品序列中的物品进行推荐。

[0046] 如图1所示，按照本发明的一个实施例，本方法包括如下步骤：

[0047] S100，根据用户当前交互会话序列中的辅助行为(auxiliary behavior)序列，得到用户辅助行为(购买)表征。用户当前交互的会话可以表示为ST＝{x1,x2,…,xτ,…,xt}，其中，xτ代表第τ个物品，T表示当前会话的时间段下标,且ST的向量表征为{x1,x2,…,xτ,…,xt}，其中 d是物品向量表征的长度。ST表示当前会话中所有交互的物品序列，其中，购买行为序列为且 AT的向量表征为购买行为序列的表征对于重复模式下的物品推荐至关重要，因为用户在短时间内，也就是在一个会话内，进行重复消费的可能性较低。通常，在推荐系统中，把交互序列中的交互类型叫做目标类型(target type),把购买行为类型叫做辅助类型(auxiliary type)。采用平均池(mean‑pooling)对购买行为序列进行表征，如下：

[0048]

[0049] 其中，AT是当前会话中的购买行为序列，是购买行为序列AT中购买的物品，是a物品的向量表示，|AT|表示序列AT的个数，p是购买行为序列表征。

[0050] S200，根据用户当前交互会话序列，得到用户短期兴趣表征。本方法采用门控循环单元网络(GRU)对用户当前交互序列进行表征：

[0051] zτ＝σ(Wxz·xτ+Whz·hτ‑1)

[0052] rτ＝σ(Wxr·xτ+Whr·hτ‑1)

[0053]

[0054]

[0055] 其中，rτ是重置门(reset gate)，zτ为更新门(update gate)，这两个门控向量决定了哪些信息能作为门控循环单元的输出。是当前记忆内容。xτ是当前层的节点输入。和分别是控制更新门zτ和重置门rτ的参数。
和是控制前记忆内容的参数。⊙是元素级别的矩阵相乘，σ是
sigmoid函数。GRU的输入序列为ST＝{x1,x2,…,xτ,…,xt}。最后，当前会话序列表征为用户短期兴趣(short‑term interest)表征为前会话序列表征

[0056] S300，更新用户长期兴趣(long‑term interest)表征pl。用户当前会话所在时间为T，用户历史所有会话表征仍然采用门控循环单元网络(GRU)结构得到，此时用户历史会话表征序列为用户长期兴趣的序列性不强，因此采用平均池(mean‑l
pooling)获得用户较为稳定的长期兴趣表征p：

[0057]

[0058] 其中，ZT‑1为时间T之前的用户历史会话表征列表，zτ为第τ个用户历史会话表征，|lZT‑1|表示序列ZT‑1的个数。p是用户的长期兴趣表征。

[0061]s l

[0062] 其中，是模型权重参数，p 和p分别是用户动态的短期兴趣表征和静态的长期兴趣表征。表示向量连接操作，softmax是softmax函数，在本方法是一个二分类方法。从公式中可以看出，选择重复模式(repeat mode)和探索模式(explore mode)是一个二分类问题，且是一个软分类(soft classification)问题。

[0063] S500，在重复模式下，根据用户的短期、长期兴趣表征和辅助行为(购买)表征，在用户历史购买的物品序列中进行推荐。令用户历史消费序列为BT‑1＝{x1,x2,…,xl}，用户历史消费序列BT‑1的向量表征为其中上标a表示购买行为(auxiliary l
behavior)。那么，在重复模式下，用户历史购买的物品的推荐概率P(xτ|r,ST,p)是：

[0064]

[0065]

[0066]

[0067] 其中，是用户历史消费序列中第τ个物品xτ的向量表征，且Wrs，Wrl，和s l a是模型参数，共同决定了第τ个物品xτ的重要程度，V代表物品集合。p 、p和p分别为用户短期、长期兴趣表征以及当前会话中的辅助(消费)行为表征。从公式中可以看出，历史购买的物品和当前购买物品越相似，推荐该物品的概率越低。

[0068] S600，在探索模式下，根据用户的短期兴趣表征和用户长期兴趣，对不在用户历史l购买的物品序列中的物品进行推荐,物品推荐概率计算公式P(xτ|e,ST,p)为：

[0069]

[0070]

[0071] 其中，xτ为物品集合V‑BT‑1中的物品xτ的向量表征。ps和pl分别为用户短期和长期l兴趣表征。对于xτ∈BT‑1的物品，也就是推荐概率P(xτ|e,ST,p)＝0。

[0072] S700，构建损失函数，训练模型参数。采用对数似然损失函数：

[0073]l

[0074] 其中，是训练集中所有的会话序列。P(xτ|ST,p)是上文中提到的概率，表示基于l用户的当前会话ST和用户长期兴趣p，预测用户下一个交互物品xτ的概率，xτ是会话序列中真实交互的物品。我们采用Adam优化器更新模型参数。

[0075] 上述对实施例的描述是为方便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

附图说明

[0040] 图1为本发明一种考虑重复购买行为的会话推荐方法的流程示意图；

[0041] 图2为本发明一种考虑重复购买行为的会话推荐方法的模型框架图。

1基于互联网和数字技术的信息优化处理方法及服务器 2基于人工智能的互联网用户整合方法及大数据服务系统