首页 > 专利 > 杭州电子科技大学 > 基于评论情感分析和协同过滤的评分预测方法专利详情

基于评论情感分析和协同过滤的评分预测方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2016-01-19

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2016-07-20

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2019-03-08

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2036-01-19

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201610033974.9	申请日	2016-01-19
公开/公告号	CN105701229B	公开/公告日	2019-03-08
授权日	2019-03-08	预估到期日	2036-01-19
申请年	2016年	公开/公告年	2019年
缴费截止日
分类号	G06F16/335 、G06F17/27	主分类号	G06F16/335
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	0
权利要求数量	1	非专利引证数量	0
引用专利数量	4	被引证专利数量	0
非专利引证
引用专利	CN104462487A、CN103064971A、CN105069072A、US2015356407A1	被引证专利
专利权维持	6	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	俞东进、穆云磊、黄彬彬	第一发明人	俞东进
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	3
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州奥创知识产权代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

王佳健

摘要

本发明公开了一种基于评论情感分析和协同过滤的评分预测方法。本发明将项目的平均评分映射为评论中的情感分布，并将项目的潜在因子向量转换为评论中不同情感下的方面分布，通过最优化和采样交替进行的优化算法获得评分预测参数。在数据稀疏的情况下，与传统的仅使用评分作为数据源的协同过滤方法以及未考虑评论情感的结合评分与评论评分预测方法相比，采用本发明所述方法可显著提高评分预测的精度。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2019-03-08	授权
2	2016-07-20	实质审查的生效	IPC(主分类): G06F 17/30 专利申请号: 201610033974.9 申请日: 2016.01.19
3	2016-06-22	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于评论情感分析和协同过滤的评分预测方法，其特征在于该方法的具体步骤是：
步骤(1).对训练集中的每一条评论进行文本预处理，首先，使用Punkt语句分割器将文本分句，再将每个句子分词，然后移除所有停用词和长度超过50的句子，最后使用Porter词干提取算法提取所有单词的词干；
步骤(2).将训练数据读入计算机内存，包括用户ID、项目ID、评分、预处理后的评论文本、评分时间；
步骤(3).初始化参数，包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu、项目潜在因子向量qv、方面单词向量ψ、潜在因子到方面分布转换峰度系数评分到情感分布的转换平滑系数ω，并随机分配句子的方面和情感标签e,z；
步骤(4).使用L-BFGS最优化算法最小化损失函数得到新的参数
集合Θ,ψ, ω，并通过项目潜在因子到方面分布的转换、评分到情感分布的转换和方面单词向量到方面单词分布的转换将项目潜在因子向量qv、项目平均评分和方面单词向量ψ转换为方面分布θ、情感分布π和方面单词分布其中Θ为潜在因子模型参数集，Φ为方面情感统一模型参数集，为控制转换的峰度系数；
步骤(5).使用步骤(4)中转换后的方面分布θ、情感分布π和方面单词分布计算评论文本语料库中每个评论中每个语句属于不同方面和情感的概率并通过该
概率采样语句新的方面标签z和情感标签e，其中ed,i为文档d第i个句子的情感标签,zd,i为文档d第i个句子的方面分配；
步骤(6).重复步骤(4)和步骤(5)直至损失函数不再降低，得到最终的预测参数，包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv；
步骤(7).使用训练后的参数全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv预测用户对项目的评分。

说明书

技术领域

[0001] 本发明属于推荐系统技术领域，具体涉及到一种基于评论情感分析和协同过滤的评分预测方法。

背景技术

[0002] 随着互联网的快速发展，人们获取信息和服务的方式发生了翻天覆地的变化。层出不穷的各种网络应用随处可见。它们中有电子商务网站，如Amazon、淘宝等；新闻门户网站，如Yahoo、新浪等；评论网站，如IMDb、豆瓣等；社交网站，如Facebook、新浪微博等。面对这些网站提供的海量的产品、新闻、电影、音乐和社交信息，用户很难找到符合自己感兴趣的部分。换句话说，信息的增长反而导致了其利用率的降低，这种现象被称为信息过载问题。个性化推荐系统是一种为用户提供个性化建议的软件工具和技术，其有效地缓解了信息过载问题，例如，帮助用户决策购买哪些商品、阅读哪些新闻、听哪些音乐以及关注哪些其他用户。

[0003] 研究如何预测用户对特定项目的偏好不仅能够帮助服务提供者获得用户对不同信息、产品或服务的喜好，还能够帮助用户做出决策。例如，当一个用户在电商网站购物时，电商网站需要通过该用户的历史行为数据预测他对未评价过的商品的偏好，并将偏好较高的商品推荐给他。在大多数网络应用中，用户偏好被量化为评分。协同过滤技术利用“集体智慧”的思想能够较为准确地预测用户的评分，从而为其产生高精度的、个性化的推荐。

[0004] 然而，传统的协同过滤技术常常仅以用户历史评分数据作为单一数据源，其在数据稀疏时的评分预测效果较差。值得注意的是，在常见的网络应用中，用户不仅对项目打分还会对项目写下一段文本评论。在这段评论中用户不仅会讨论这个产品的各个方面，还蕴含着他们对这些方面的情感。例如，当用户评论笔记本电脑时，他会对某款笔记本电脑的“外形”和“性能”等方面表达正面的情感，而对它的“续航”和“散热”等方面表达负面的情感。虽然在最新的评分预测方法中，它们同时使用评分和评论作为数据源，提高了数据稀疏时方法的评分预测精度，但它们没有考虑评论中潜在情感以及不同情感下不同的方面对评分的影响。

发明内容

[0005] 本发明针对现有技术的不足，提供了一种基于评论情感分析和协同过滤的评分预测方法。

[0006] 本发明方法的具体步骤是：

[0007] 步骤(1)对训练集中的每一条评论进行文本预处理，首先，使用Punkt语句分割器将文本分句，再将每个句子分词，然后移除所有停用词和长度超过50的句子，最后使用Porter词干提取算法提取所有单词的词干；

[0008] 步骤(2)将训练数据读入计算机内存，包括用户ID、项目ID、评分、预处理后的评论文本、评分时间；

[0009] 步骤(3)初始化参数，包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu、项目潜在因子向量qv、方面单词向量ψ、潜在因子到方面分布转换峰度系数评分到情感分布的转换平滑系数ω，并随机分配句子的方面和情感标签e,z；

[0010] 步骤(4)使用L-BFGS最优化算法最小化损失函数得到新的参数集合Θ,ψ, ω，并通过项目潜在因子到方面分布的转换、评分到情感分布的转换和方面单词向量到方面单词分布的转换将项目潜在因子向量qv、项目平均评分和方面单词向量ψ转换为方面分布θ、情感分布π和方面单词分布

[0011] 步骤(5)使用步骤(4)中转换后的方面分布θ、情感分布π和方面单词分布计算评论文本语料库中每个评论中每个语句属于不同方面和情感的概率并通过该概率采样语句新的方面标签z和情感标签e；

[0012] 步骤(6)重复步骤(4)和步骤(5)直至损失函数不再降低，得到最终的预测参数，包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv；

[0013] 步骤(7)使用参数全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv预测用户对项目的评分；

[0014] 本发明所提供的基于评论情感分析和协同过滤的评分预测方法由一组功能模块组成，它们包括：评论文本预处理模块、评分和评论数据读入模块、训练模块和评分预测模块。

[0015] 评论文本预处理模块对评论文本进行预处理工作，包括评论分句、语句分词、停用词删除、过长语句删除和词干提取。

[0016] 评分和评论数据读入模块将评分和评论数据读入内存，包括用户ID、项目ID、评分、评分时间、预处理之后的评论文本。

[0017] 训练模块训练数据集以获得评分预测器，其包括参数初始化、L-BFGS优化、语句方面和情感标签重采样三个部分，参数初始化部分分配所有参数的内存并赋值，L-BFGS部分使用多线程并行方式优化损失函数，语句方面和情感标签重采样部分重新采样每个语句的方面和情感标签。

[0018] 评分预测模块预测数据集中每对用户和项目的评分。

[0019] 本发明提出的方法通过对评论文本的情感分析，将项目的平均评分映射为评论中的情感分布，并将项目的潜在因子向量转换为评论中不同情感下的方面分布，通过最优化和采样交替进行的优化算法获得评分预测参数。在数据稀疏的情况下，与传统的仅使用评分作为数据源的协同过滤方法以及未考虑评论情感的结合评分与评论评分预测方法相比，采用本发明所述方法可显著提高评分预测的精度。

实施方案

[0023] 本发明所提供的基于评论情感分析和协同过滤的评分预测方法的具体实施方式主要分3步(如图1所示)：

[0024] (1)评论文本预处理阶段，包括评论分句、语句分词、停用词删除、过长语句删除和词干提取；(2)训练阶段，首先进行参数初始化，将所有参数赋予初值，然后训练参数，使用L-BFGS优化损失函数，再通过一系列参数转换计算评论语料的似然重新采样每个语句的方面和情感标签，两者交替进行直至收敛；(3)预测阶段，利用训练获得的评分预测参数为每组用户项目预测评分。

[0025] 为叙述方便，定义相关符号如下：

[0026] N：用户数。

[0027] M：项目数。

[0028] T：评分范围。

[0029] 用户u对项目v的预测评分。

[0030] μ：全局偏置。

[0031] bu：用户u偏置。

[0032] bv：项目v偏置。

[0033] pu：用户u的潜在因子向量。

[0034] qv：项目v的潜在因子向量。

[0035] D：文档数。

[0036] G：语句数。

[0037] W：单词数。

[0038] K：方面数、潜在因子数。

[0039] π：情感多项分布。

[0040] θ：方面多项分布。

[0041] 单词多项分布。

[0042] ψ：方面单词向量。

[0043] βs：的狄利克雷先验参数(对于情感s)。

[0044] wd,i,j：文档d第i个句子的第j个单词。

[0045] ed,i：文档d第i个句子的情感标签。

[0046] zd,i：文档d第i个句子的方面分配。

[0047] (1)评论文本预处理

[0048] 依次对训练集中的每一条评论进行文本预处理(如图2所示)，首先，使用Punkt语句分割器将文本分句，再将每个句子分词，然后移除所有停用词和长度超过50的句子，最后使用Porter词干提取算法提取所有单词的词干。

[0049] (2)参数训练

[0050] 对原始数据进行预处理之后，进行参数的训练(如图3所示)。首先初始化所有参数，包括全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu、项目潜在因子向量qv、方面单词向量ψ、潜在因子到方面分布转换峰度系数评分到情感分布的转换平滑系数ω，并随机分配句子的方面和情感标签e,z。

[0051] 然后使用L-BFGS最优化算法最小化损失函数，损失函数定义为：

[0052]

[0053] Θ＝{μ,bu,bv,pu,qv}为潜在因子模型参数集，为方面情感统一模型参数集，为控制转换的峰度系数，ω为控制转换的平滑系数，e和z分别为语句的情感和方面标签。等式右边的为训练集中所有预测评分与真实评分的均方误差，为评论语料的对数似然，λ为平衡两个部分的超参数。评论语料的对数似然定义为：

[0054]

[0055] 经过优化后得到新的参数集合Θ,ψ, ω，并通过转换将项目潜在因子向量qv转换为不同情感下的方面分布其定义为：

[0056]

[0057]

[0058] e∈{+,-}，+表示正面情感，-表示负面情感。

[0059] 以及通过转换将项目平均评分映射为正面情感概率其定义为：

[0060]

[0061] 负面情感概率计算为

[0062] 以及通过转换将方面单词向量ψ转换为方面单词分布其定义为：

[0063]

[0064] 在得到方面情感统一模型的参数集之后，重新采样所有语句的情感标签e和方面标签z。采样的概率由下式计算：

[0065]

[0066] 采样完所有语句的情感标签e和方面标签z之后，再使用L-BFGS算法重新优化损失函数，如此反复直至损失函数值不在下降。

[0067] (3)评分预测

[0068] 得到优化后的参数全局偏置μ、用户偏置bu、项目偏置bv、用户潜在因子向量pu和项目潜在因子向量qv，使用下式预测用户u对项目v的评分：

[0069]

[0070] 本发明可用于电子商务网站的稀疏环境推荐系统中，以产生较为精确的个性化推荐。

附图说明

[0020] 图1方法框架图；

[0021] 图2评论文本预处理流程图；

[0022] 图3训练流程图。