首页 > 专利 > 重庆邮电大学 > 一种基于大数据的个性化新闻推荐方法及装置专利详情

一种基于大数据的个性化新闻推荐方法及装置 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2020-11-28

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-03-30

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-06-10

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2040-11-28

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202011362395.1	申请日	2020-11-28
公开/公告号	CN112487291B	公开/公告日	2022-06-10
授权日	2022-06-10	预估到期日	2040-11-28
申请年	2020年	公开/公告年	2022年
缴费截止日
分类号	G06F16/9535 、G06F16/33 、G06F16/335 、G06N3/04 、G06N3/08	主分类号	G06F16/9535
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	4
权利要求数量	5	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2018.04.12张浩.基于BERT模型的中老年个性化新闻推荐系统《.中国优秀硕士学位论文全文数据库信息科技辑》.2022,(第03期),;
引用专利	WO2018065045A	被引证专利
专利权维持	2	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	重庆邮电大学	第一申请人	重庆邮电大学
专利权人	重庆邮电大学	当前专利权人	重庆邮电大学
发明人	王进、张浩、于新龙、杨小姜、刘彬、孙开伟	第一发明人	王进
地址	重庆市南岸区南山街道崇文路2号	邮编	400065
申请人数量	1	发明人数量	6
申请人所在省	重庆市	申请人所在市	重庆市南岸区

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

重庆辉腾律师事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

王海军

摘要

本发明涉及自然语言处理，特别涉及一种基于大数据的个性化新闻推荐方法及系统，所述方法包括获取历史数据，对数据集进行预处理操作，并进行预处理；对数据构建特征工程，建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；根据特征的重要性对特征进行选择，保留重要性最高的前50％的特征作为选择的特征；根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户；本发明可以对海量特征进行有效地特征选择，在保证效果的前提下，能减小特征维度，加快模型的训练时间，提高效率，同时降低对内存的要求。

摘要附图
说明书附图：[转续页]
说明书附图：图1
说明书附图：图2
说明书附图：图3

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-06-10	授权
2	2021-03-30	实质审查的生效	IPC(主分类): G06F 16/9535 专利申请号: 202011362395.1 申请日: 2020.11.28
3	2021-03-12	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于大数据的个性化新闻推荐方法，其特征在于，包括以下步骤：
获取历史数据，对数据集进行预处理操作；
将历史数据中浏览数和点赞数超过平均值3倍的天数删除，对剩余数据的负样本通过随机采样的方式进行删除，保证正负样本比为1:16；
对数据构建特征工程，建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；
根据特征的重要性对特征进行选择，保留重要性最高的前50％的特征作为选择的特征；选择过程包括以下步骤：
使用LightGBM训练模型训练得到每个特征的重要性，得到特征重要性集合w′＝(w′1，w′2，...，w′i，...，w′n)，其中，w′i表示第i个特征的重要性；
使用Embedding+Attention+Dense神经网络训练模型对特征的重要性训练，一共训练至少m次；
结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型，获取最终的重要性得分，特征k最终的重要性得分表示为：
其中，wij表示第i轮中第j个特征的重要性；
利用结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型当前的AUC值对特征k最终的重要性得分进行加权，加权后的特征k最终的重要性得分表示为：
其中，Wk表示加权后的特征k最终的重要性得分，AUCi表示第i轮模型的AUC值；
根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户。

2.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法，其特征在于，对数据集进行预处理，具体包括以下步骤：
对异常数据进行清洗，包括删除一秒钟内浏览新闻数超过20的用户，删除一个月内每天在同一时间在多个平台同时登录账号的用户，删除浏览次数大于用户数的新闻；
为每一个字段的缺失值生成一个满足正态分布的随机向量来作为特征隐向量，并让该特征隐向量加上一个0到1的随机数作为扰动因子。

3.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法，其特征在于，用户属性特征至少包括用户的年龄、性别、职业、学历、家乡、用户等级的one‑hot特征；用户时序特征用户至少包括最近1、2、3、7、15、30、60、120天内对某个类别的新闻的浏览、点赞、评论、收藏、转发、举报数和停留时长的最大值、最小值、均值、中位数、总和；新闻属性特征至少包括新闻的类别、来源的one‑hot特征，以及新闻浏览数、点赞数、评论数、收藏数、转发数、举报数；上下文属性特征至少包括户所处地理位置、天气、用户所用的产品设备、产品版本号的one‑hot特征；新闻标题语义特征为将新闻标题输入到XLNet模型来提取新闻标题的语义向量，用CNN模型对语义向量卷积池化来自动提取特征，并输入到全连接层来提取的高阶特征。

4.根据权利要求1所述的一种基于大数据的个性化新闻推荐方法，其特征在于，根据选择的特征建立深度学习模型并进行模型融合操作具体包括：
把用户时序特征构造成一个维度为(8,11)的二维向量，其中8是指时序特征的天数，11是指时序特征的个数，后面接入双向的LSTM层来提取特征的时序信息，得到时序特征；
为离散型特征随机初始化特征嵌入矩阵，通过embedding层得到特征向量，然后分别用长度为2、3、4的卷积核做卷积和池化操作，再把得到的结果拼接起来得到离散特征；
将特征取值个数超过10000的作为连续特征，把时序特征、离散特征和连续特征拼接起来输入到3层的DNN模型中，每一层的神经元个数分别为256、128、64，在该神经网络中的输出层得到点击率。

5.一种基于大数据的个性化新闻推荐系统，其特征在于，用于实现权利要求1所述的一种基于大数据的个性化新闻推荐方法，所述系统包括特征获取模块、特征预处理模块、特征工程构建模块、特征选择模块、特征融合模块，其中：
特征获取模块，用于从获取的原始数据中获取用户和新闻的特征；
特征预处理模块，用于对特征进行预处理，包括对异常数据进行清洗并在清洗后的数据中加入扰动；
特征工程构建模块，用于根据原始数据构建用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；
特征选择模块，用于根据LightGBM训练模型和Embedding+Attention+Dense神经网络训练模型分别获取特征的重要性，并根据获取的重要性计算特征最终的重要性，并选择该最终重要性最大的前50％的特征作为选择的特征；
特征融合模块，用于根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户。

说明书

技术领域

[0001] 本发明涉及机器学习、深度学习、自然语言处理、大数据技术领域，特别涉及一种基于大数据的个性化新闻推荐方法及装置。

背景技术

[0002] 近年来，互联网的迅猛发展给用户带来了海量的信息，导致了用户在面对海量信息时无法快速有效的获取对自己最有用的信息，使得用户对信息的使用效率大大降低，而个性化推荐系统就是解决该问题的一个有力工具。以新闻资讯产业为例，为了提升用户的阅读体验，提高用户的留存时长，常常利用个性化推荐算法为用户自动推荐最感兴趣的新闻，极大提升用户体验。个性化新闻推荐系统需要利用用户的行为数据，通过分析大量用户行为日志，给用户推荐最可能阅读的新闻，为用户提供个性化服务，以此来提高新闻资讯产品的点击率和转化率。

发明内容

[0003] 为了解决上述问题，本发明提出一种基于大数据的个性化新闻推荐方法，如图1，具体包括以下步骤：

[0004] 获取历史数据，对数据集进行预处理操作；

[0005] 将历史数据中浏览数和点赞数超过平均值3倍的天数删除，对剩余数据的负样本通过随机采样的方式进行删除，保证正负样本比为1:16；

[0006] 对数据构建特征工程，建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；

[0007] 根据特征的重要性对特征进行选择，保留重要性最高的前50％的特征作为选择的特征；

[0008] 根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户。

[0009] 进一步的，对数据集进行预处理，具体包括以下步骤：

[0010] 对异常数据进行清洗，包括删除一秒钟内浏览新闻数超过20的用户，删除一个月内每天在同一时间在多个平台同时登录账号的用户，删除浏览次数大于用户数的新闻；

[0011] 为每一个字段的缺失值生成一个满足正态分布的随机向量来作为特征隐向量，并让该特征隐向量加上一个0到1的随机数作为扰动因子。

[0012] 进一步的，根据特征的重要性对特征进行选择包括：

[0013] 使用LightGBM训练模型训练得到每个特征的重要性，得到特征重要性集合w′＝(w′1，w′2，...，w′i，...，w′n)，其中，w′i表示第i个特征的重要性；

[0014] 使用Embedding+Attention+Dense神经网络训练模型对特征的重要性训练，一共训练至少m次；

[0015] 结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型，获取最终的重要性得分。

[0016] 进一步的，特征k最终的重要性得分表示为：

[0017]

[0018] 其中，wij表示第i轮中第j个特征的重要性。

[0019] 进一步的，利用结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型当前的AUC值对特征k最终的重要性得分进行加权，加权后的特征k最终的重要性得分表示为：

[0020]

[0021] 其中，Wk表示加权后的特征k最终的重要性得分，AUCi表示第i轮模型的AUC值。

[0022] 进一步的，根据选择的特征建立深度学习模型并进行模型融合操作具体包括：

[0023] 把用户时序特征构造成一个维度为(8,11)的二维向量，其中8是指时序特征的天数，11是指时序特征的个数，后面接入双向的LSTM层来提取特征的时序信息，得到时序特征；

[0024] 为离散型特征随机初始化特征嵌入矩阵，通过embedding层得到特征向量，然后分别用长度为2、3、4的卷积核做卷积和池化操作，再把得到的结果拼接起来得到离散特征；

[0025] 将特征取值个数超过10000的作为连续特征，把时序特征、离散特征和连续特征拼接起来输入到3层的DNN模型中，每一层的神经元个数分别为256、128、64，在该神经网络中的输出层得到点击率。

[0026] 本发明还提出一种基于大数据的个性化新闻推荐系统，所述系统包括特征获取模块、特征预处理模块、特征工程构建模块、特征选择模块、特征融合模块，其中：

[0027] 特征获取模块，用于从获取的原始数据中获取用户或者新闻的特征；

[0028] 特征预处理模块，用于对特征进行预处理，包括对异常数据进行清洗并在清洗后的数据中加入扰动；

[0029] 特征工程构建模块，用于根据原始数据构建用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；

[0030] 特征选择模块，用于根据LightGBM训练模型和Embedding+Attention+Dense神经网络训练模型分别获取特征的重要性，并根据获取的重要性计算特征最终的重要性，并选择该最终重要性最大的前50％的特征作为选择的特征；

[0031] 特征融合模块，用于根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户。

[0032] 本发明可以对海量特征进行有效地特征选择，在保证效果的前提下，能减小特征维度，加快模型的训练时间，提高效率，同时降低对内存的要求。

实施方案

[0036] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0037] 本发明提出一种基于大数据的个性化新闻推荐方法，如图1，具体包括以下步骤：

[0038] 获取历史数据，对数据集进行预处理操作；

[0039] 将历史数据中浏览数和点赞数超过平均值3倍的天数删除，对剩余数据的负样本通过随机采样的方式进行删除，保证正负样本比为1:16；

[0040] 对数据构建特征工程，建立用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；

[0041] 根据特征的重要性对特征进行选择，保留重要性最高的前50％的特征作为选择的特征；

[0042] 根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户。

[0043] 实施例1

[0044] 获取用户的历史数据，并对获取的数据集进行以下处理：

[0045] 对异常数据进行清洗，删除一秒钟内浏览新闻数超过20的用户，删除一个月内每天在同一时间在多个平台同时登录账号的用户，删除浏览次数大于用户数的新闻；

[0046] 为每一个字段的缺失值生成一个满足正太分布的随机向量来作为CTR模型的特征隐向量，并让该特征隐向量加上一个0到1的随机数作为扰动因子。

[0047] 根据数据集划分训练集、验证集和测试集操作，具体如下：选取最近一年的数据，统计数据中用户和新闻每天浏览数和点赞数的分布，删除浏览数和点赞数超过平均值3倍的天数，再对剩余数据的负样本通过随机采样的方式进行删除，保证正负样本比为1∶16，最后选择前10个月的数据作为训练集，后2个月的数据作为验证集，线上实时数据作为测试集。

[0048] 对数据构建特征工程操作，具体如下：

[0049] 将用户的年龄、性别、职业、学历、家乡、用户等级的onehot特征作为用户属性特征；

[0050] 将用户最近7、30、60、120天内对某个类别的新闻的浏览、点赞、评论、收藏、转发、举报数，用户对某个类别的新闻的停留时长的最大值、最小值、均值、中位数、总和作为用户的用户行为特征；

[0051] 将新闻的类别、来源的onehot特征，新闻浏览数、点赞数、评论数、收藏数、转发数、举报数作为新闻属性特征；

[0052] 将用户所处地理位置、天气、用户所用的产品设备、产品版本号的onehot特征作为上下文特征；

[0053] 新闻标题输入到XLNet模型来提取新闻标题的语义向量，再用CNN模型对语义向量卷积池化来自动提取特征，最后输入到全连接层来提取高阶特征，得到新闻标题的语义特征。

[0054] 对特征进行特征选择操作，如图2，具体如包括：

[0055] 使用LightGBM训练模型，获取训练后的特征重要性，得到特征重要性集合w′＝(w′1，w′2，...，w′i，...，w′n)，其中，w′i表示第i个特征的重要性；

[0056] 使用Embedding+Attention+Dense神经网络训练模型，一共训练m(m＝10)轮，获取每一轮网络Attention层的特征权重作为特征的重要性，即第i轮的特征重要性集合wi＝(wi1，w′i2，...，wij，...，win)，其中，wij表示第i轮中第j个特征的重要性；

[0057] 计算每一个特征的特征重要性，其中第k个特征的特征重要性最后保留特征重要性最高的50％的特征。

[0058] 作为一种优选的实施方式，本发明对第k个特征的特征重要性进行进一步加权处理，保证筛选的重要性能够更加清晰反映用户行为，利用结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型当前的AUC值对特征k最终的重要性得分进行加权，加权后的特征k最终的重要性得分表示为：

[0059]

[0060] 其中，Wk表示加权后的特征k最终的重要性得分，AUCi表示第i轮模型的AUC值。

[0061] 在进行计算特征的重要性后，可以根据特征的类别对特征进行加权，本实施例中包括用户属性特征、用户时序特征、新闻属性特征、上下文属性特征、新闻标题语义特征，将这些特征分别作为一个类别，每个类别下面有更小的特征，针对被选择的某个类别中的特征，随机生成一组和为1的特征权重，分别随机赋值给每个特征，增加随机性。

[0062] 根据特征建立深度学习模型并进行模型融合操作，如图3，具体包括：

[0063] 把用户时序特征构造成一个维度为(8，11)的二维向量，其中8是指时序特征的天数，11是指时序特征的个数，后面接入双向的LSTM层来提取特征的时序信息；

[0064] 为离散型特征随机初始化特征嵌入矩阵，通过embedding层得到特征向量，然后分别用长度为2、3、4的卷积核做卷积和池化操作，再把得到的结果拼接起来；

[0065] 将得到的特征信息和连续型特征拼接起来，输入到3层的DNN模型中，每一层的神经元个数分别为256、128、64，最后再输入给输出层得到最终的结果。

[0066] 通过构建的模型，给用户推荐最可能点击的新闻操作，即使用训练后获得的最终模型，预测用户对新闻的点击率，最终保留点击率大于0.75的新闻作为推荐给用户的新闻，点击率越大，推荐位置越靠前。

[0067] 实施例2

[0068] 本实施例提出一种基于大数据的个性化新闻推荐系统，所述系统包括特征获取模块、特征预处理模块、特征工程构建模块、特征选择模块、特征融合模块，其中：

[0069] 特征获取模块，用于从获取的原始数据中获取用户或者新闻的特征；

[0070] 特征预处理模块，用于对特征进行预处理，包括对异常数据进行清洗并在清洗后的数据中加入扰动；

[0071] 特征工程构建模块，用于根据原始数据构建用户属性特征、用户时序特征、新闻属性特征、上下文属性特征以及新闻标题语义特征；

[0072] 特征选择模块，用于根据LightGBM训练模型和Embedding+Attention+Dense神经网络训练模型分别获取特征的重要性，并根据获取的重要性计算特征最终的重要性，并选择该最终重要性最大的前50％的特征作为选择的特征；

[0073] 特征融合模块，用于根据选择的特征建立深度学习模型并进行模型融合操作，利用该模型对实时数据进行预测，将预测的点击率大于0.75的新闻推荐给用户。

[0074] 在上述系统的基础上，特征选择模块根据特征的重要性对特征进行选择包括：

[0075] 使用LightGBM训练模型训练得到每个特征的重要性，得到特征重要性集合w′＝(w′1，w′2，...，w′i，...，w′n)，其中，w′i表示第i个特征的重要性；

[0076] 使用Embedding+Attention+Dense神经网络训练模型对特征的重要性训练，一共训练至少m次；

[0077] 结合LightGBM训练模型训练的重要性和Embedding+Attention+Dense神经网络训练模型，获取最终的重要性得分。

[0078] 尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

附图说明

[0033] 图1为本发明实施例一提供一种基于大数据的个性化新闻推荐方法的流程图；

[0034] 图2为本发明实施例一提供一种基于大数据的个性化新闻推荐方法的特征选择模型图；

[0035] 图3为本发明实施例一提供一种基于大数据的个性化新闻推荐方法的模型融合流程图。

1一种大数据蹦床 2一种大数据一体机 3一种基于大数据处理的数据采集设备 4一种基于大数据的农业大棚 5基于大数据和智慧安防的数据管理系统 6一种基于大数据的人体数据检测、监测系统 7用于大数据清洗的人工智能处理方法及大数据清洗系统 8一种基于大数据的计算机数据安全评估系统 9一种基于大数据的图像数据查询方法和系统 10在大数据场景下的在线办公安防处理方法及大数据服务器