首页 > 专利 > 杭州电子科技大学 > 一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法专利详情

一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-04-02
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-09-10
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-04-09
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-04-02
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910262473.1 申请日 2019-04-02
公开/公告号 CN110134710B 公开/公告日 2021-04-09
授权日 2021-04-09 预估到期日 2039-04-02
申请年 2019年 公开/公告年 2021年
缴费截止日
分类号 G06F16/2455G06F16/2458G06F16/28G06Q10/06 主分类号 G06F16/2455
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 0
权利要求数量 1 非专利引证数量 1
引用专利数量 0 被引证专利数量 0
非专利引证 1、CN 101419627 A,2009.04.29CN 109100321 A,2018.12.28CN 109447167 A,2019.03.08CN 101129214 A,2008.02.27王岁寒.“基于先验知识的卷烟感官评吸指标预测方法”《.中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》.2019,;
引用专利 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 张忠良、陈愉予、雒兴刚、李晶、王惠丰、周林亚、王一 第一发明人 张忠良
地址 浙江省杭州市下沙高教园区 邮编 310018
申请人数量 1 发明人数量 7
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
浙江永鼎律师事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
陆永强
摘要
本发明公开了一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法,步骤S1:采集H集团的配方历史数据以及单料烟信息数据;步骤S2:对采集的数据进行预处理;步骤S3:运用统计工具对卷烟配方数据进行统计分析;步骤S4:建立基于贝叶斯网络的卷烟配方识别模型,进行规则提取;步骤S5:构建卷烟配方维护的启发式方法。采用本发明的技术方案,通过卷烟配方历史数据以及单料烟信息数据建立贝叶斯网络,基于贝叶斯网络提出卷烟配方维护的启发式方法,从而大大降低了传统专家评吸方法带来的人力财力资源浪费和主观性造成的评吸质量问题。
  • 摘要附图
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图1
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图2
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图3
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图4
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图5
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图6
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图7
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图8
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图9
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
  • 说明书附图:图10
    一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-04-09 授权
2 2019-09-10 实质审查的生效 IPC(主分类): G06F 16/2455 专利申请号: 201910262473.1 申请日: 2019.04.02
3 2019-08-16 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法,其特征在于,包括如下步骤:
步骤S1:采集配方历史数据以及单料烟信息数据;
步骤S2:对采集的数据进行预处理;
采用k‑近邻的方法对单料烟的缺失信息进行补充,利用五次十折交叉验证的方法找出值的变化对预测的准确率的影响规律;为了达到识别模型对输入数据的要求,对所有配方数据进行特征属性整合,并通过CAIM(class‑attribute interdependence maximization)方法对成品烟配方属性离散化以达到贝叶斯网络对处理数据的要求;
步骤S3:运用统计工具对卷烟配方数据进行统计分析;
步骤S4:建立基于贝叶斯网络的卷烟配方识别模型,进行规则提取;
步骤S5:提出卷烟配方维护的启发式方法;
所述启发式方法为:在贝叶斯网络的卷烟配方识别模型的基础上,采用加权聚类对品牌用到的所有单料烟进行了聚类分析,统计出了品牌中单料烟使用过的所有用量;
其中,所述步骤S4进一步包括:
步骤S41:采集配方历史数据以及单料烟信息数据,并对成品烟配方属性进行离散化处理,建立贝叶斯网络的学习数据集;
步骤S42:建立贝叶斯网络;
步骤S43:基于贝叶斯网络的卷烟配方规则提取;
所述步骤S42进一步包括:
贝叶斯网络的学习过程分为结构学习和参数学习两步,采用K2算法作为构建贝叶斯网络的结构学习方法;
步骤S421:最大似然估计方法作为构建贝叶斯网络的参数学习方法,参数的似然函数为:L(θ|D)=P(D|θ),参数θ的最大似然估计就是使得其对应的似然函数的取值达到最大的*
取值θ,即:
步骤S422:考虑一个由n个变量X={X1,X2,...,Xn}组成的贝叶斯网N:
其中:
Nijk表示在数据集中符合Xi=k且π(Xi)=j的样本数目;
Nij表示在数据集中π(Xi)=j的样本数目;
ri表示节点Xi的状态数;
π(Xi)表示贝叶斯网络的联合概率;
所述步骤S5进一步包括:
步骤S51:根据已有的配方数据以及单料烟信息表,对数据进行处理;
步骤S52:利用加权聚类算法将单料烟按照属性特征划分为多个类;
步骤S53:建立卷烟配方维护启发式方法的算法;
所述步骤S52进一步包括:
采用k‑means聚类算法,并加入权重后的距离计算公式为:
其中,x′ip表示样本xi的条件属性p进行归一化后的值;wp表示样本xi的条件属性p的权重值;
其中衡量聚类规则效果的好以及确定k值的方法,按如下步骤进行:
步骤S521:将缺失配方用过的所有单料烟进行聚类;
步骤S522:k取值范围是1~10,从k=1开始,依据统计的属于“一对一”替换类型的单料烟编码依次在步骤S521结果中查找其对应的类别;若替换前后单料烟的类别一致,则该次替换符合同类替换,替换正确数加1;
步骤S523:重复执行步骤S522,分别得出k=2~10对应的正确替换的次数;
k‑Acc用于描述样本在聚类为k类的正确率,以此确定聚类的种类数,计算公式:
其中nk为在聚类为k类所对应的替换正确次数,N为总替换次数,即出现“一对一”配方替换情况的次数;
步骤S524:加权前后聚类规则效果对比以及k值的确定;
所述步骤S53进一步包括:
步骤S531:将该成品烟品牌用到的所有单料烟按照所选属性进行聚类分成若干簇;
步骤S532:按照单料烟编码查找缺失单料烟所在的簇,将此簇下的所有单料烟作为第一步的替代单料烟候选集;
步骤S533:从单料烟候选集中的第一个单料烟开始,其用量遍历取该品牌中的单料烟历史用量值,依次计算补全的配方对应的属性特征,替代缺失单料烟放入缺失配方中;
步骤S534:将步骤S533得到的配方的属性特征依次输入贝叶斯网络识别器中,判断补全后的配方是否是原配方类别,若是,则认为此单料烟可替代缺失单料烟,若否,则对候选集中下一个单料烟执行此操作;
步骤S535:重复执行步骤S533和步骤S534,找出可以替代缺失单料烟的所有单料烟;
步骤S536:将步骤S535得到的单料烟候选集根据其在贝叶斯网络识别器中的概率的高低顺序进行排序,从而得到可以进行替换的单料烟的优先顺序,对于概率一致的情况,再按照新得到的感官与原配方感官的欧氏距离从小到大排序。
说明书

技术领域

[0001] 本发明涉及信息技术及数据挖掘领域,具体涉及一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法。

背景技术

[0002] 在卷烟新产品的整个设计开发过程中,卷烟配方设计是最核心的环节,主要分为两大部分,分别是叶组配方设计以及加料、加香的配方设计。其中,叶组配方设计是指根据所需设计的卷烟产品的类型,按照不同的比例将不同产地、不同等级、不同类型、不同特征因素和不同香型的烟叶巧妙地混合成一种具有某种特定感官品质的卷烟产品。
[0003] 叶组配方设计大多依赖于传统的方法。所谓传统的配方设计,主要依赖于专家长期以来积累的配方设计经验,包括对配方中烟叶类型的认知、烟叶的配伍特性以及感官质量的评价等,通过反复评吸、不断实验以实现新产品的设计和配方维护。因此,传统配方设计的方式要求评吸专家需具备丰富的评吸经验,如果经过评吸专家评估发现新产品没有达到预期的感官要求,那么将变为废弃品,就会造成人力和财力资源的浪费。另一方面,产品质量的评定如果只依靠人的感觉器官,具有一定的主观性且缺乏稳定性,难以保证评吸的质量。
[0004] 因此,针对现有技术的缺陷,有必要提出一种技术方案以解决现有技术存在的问题。

发明内容

[0005] 有鉴于此,确有必要提供一种基于贝叶斯网络的卷烟配方规则提取和配方维护方法,通过卷烟配方历史数据以及单料烟信息数据建立贝叶斯网络,基于贝叶斯网络提出卷烟配方维护的启发式方法,从而大大降低了传统专家评吸方法带来的人力财力资源浪费和主观性造成的评吸质量问题。
[0006] 为了克服现有技术的缺陷,本发明的技术方案如下:
[0007] 一种基于贝叶斯网络的卷烟配方规则提取和配方维护方法,包括以下步骤:
[0008] 步骤S1:采集H集团的配方历史数据以及单料烟信息数据;
[0009] 单料烟的信息数据包括部位、颜色、档次、化学元素含量,其中,化学元素包括总糖、氯、蛋白质、总烟碱、还原糖、钾、施木克值、总氮;
[0010] 步骤S2:对采集的数据进行预处理;
[0011] 步骤S3:运用统计工具对卷烟配方数据进行统计分析;
[0012] 步骤S4:建立基于贝叶斯网络的卷烟配方识别模型,进行规则提取;
[0013] 步骤S5:构建卷烟配方维护的启发式方法;
[0014] 所述启发式方法为:采用加权聚类对品牌用到的所有单料烟进行了聚类分析,统计出了品牌中单料烟使用过的所有用量。在贝叶斯网络的卷烟配方识别模型的基础上,提出卷烟配方维护的启发式方法,并尝试了卷烟产品维护过程单料烟的替换问题。替换的单料烟的优先顺序依据贝叶斯网络概率推理的结果,将得到的概率从大到小排序,对于概率一致的情况,再按照新得到的感官与原配方感官的欧氏距离从小到大排序;
[0015] 其中,步骤S2进一步包括:
[0016] 步骤S21:采用k近邻的方法对单料烟的缺失信息进行补充;
[0017] 步骤S22:将原来的配方数据整合成一种能表征卷烟配方特征类型的数据;
[0018] 步骤S23:利用CAIM(class‑attribute interdependence maximization)方法对成品烟配方属性离散化;
[0019] 其中,步骤S3进一步包括:
[0020] 步骤S31:化学元素属性间的相关性分析;
[0021] 步骤S32:单料烟在配方中使用频率分析;
[0022] 步骤S33:配方部位、颜色、档次比例随配方变化过程的波动情况分析;
[0023] 步骤S34:配方替代前后物化指标的变化量的统计分析;
[0024] 其中,步骤S4进一步包括:
[0025] 步骤S41:采集配方历史数据以及单料烟信息数据,并对成品烟配方属性进行离散化处理,建立贝叶斯网络的学习数据集;
[0026] 步骤S42:基于贝叶斯网络的卷烟配方识别算法设计,建立贝叶斯网络;
[0027] 所述的算法设计包括贝叶斯网络的结构学习、参数学习和推理模式;
[0028] 步骤S43:基于贝叶斯网络的卷烟配方规则提取;
[0029] 所述的规则会从定性和定量知识的角度来分析各属性节点之间、属性节点和品牌节点之间的相互关系;
[0030] 其中,步骤S5进一步包括:
[0031] 步骤S51:数据描述;
[0032] 步骤S52:利用加权聚类算法将单料烟按照属性特征划分为多个类;
[0033] 步骤S53:建立卷烟配方维护启发式方法的算法。
[0034] 与现有技术相比较,本发明具有的有益效果:
[0035] 本发明在建立的贝叶斯网络的配方识别模型的基础上,进行了卷烟配方的规则提取,分析了卷烟品牌的配方与属性之间的相互关系,并提取出了卷烟配方在数据中隐藏的规则。利用贝叶斯网络可以结合先验知识进行结构学习和参数的特点,可以将提取出的规则与卷烟品牌中的专家的经验相结合,利用知识辅助模型去学习数据的内在特征,并将其用于卷烟叶组配方的设计。
[0036] 本发明可以代替或辅助专家在产品生产设计过程中进行决策,对烟草企业科学高效地完成配方维护和设计、避免重复劳动以及保持卷烟生产的稳定性和创造性、提高企业的市场竞争力具有重要的理论和现实意义。同时本发明提取的卷烟配方知识可以为企业的卷烟配方管理人员提供一些关于如何进行品牌的管理和特征识别方面的建议,所提出的方法可以直接用于卷烟的生产和维护,对烟叶替代方面具有较高的应用价值。

实施方案

[0047] 以下将结合附图对本发明提供的技术方案作进一步说明。
[0048] 根据叶组配方设计的烟叶的配伍特性以及感官质量的评价,本实施方式选择部位、档次、颜色作为物理特征,化学元素总糖、氯、蛋白质、总烟碱、还原糖、钾、施木克值、总氮作为化学特征,来探究不同品牌与配方整体特征之间的关系,建立基于贝叶斯网络的卷烟配方识别模型。对配方中部位、颜色、档次比例随配方变化的波动情况、配方替代前后物化指标的变化量进行统计分析,建立基于聚类和贝叶斯网络启发式规则的卷烟配方维护方法。最后,将配方维护这个功能添加到卷烟产品叶组配方优化辅助决策系统中。
[0049] 本实施方式的基于贝叶斯网络的卷烟配方规则提取和配方维护,包括如下步骤:
[0050] 步骤S1:采集H集团的配方历史数据以及单料烟信息数据;
[0051] 采集H集团提供的真实配方数据,记录了6个品牌的成品烟在2010‑2012年内配方的变化过程,总共有388组配方数据,共包含286种单料烟信息。配方数据包括用到的单料烟编号以及投放用量。单料烟的信息特征包括部位、颜色、档次、化学元素含量,其中,化学元素包括总糖、氯、蛋白质、总烟碱、还原糖、钾、施木克值、总氮;
[0052] 步骤S2:对采集的数据进行预处理;
[0053] 步骤S21:采用k‑近邻的方法对单料烟的缺失信息进行补充;
[0054] 单料烟的缺失信息包括部位、颜色、档次,分别将部位、颜色、档次作为目标属性,输入属性选择为八种化学元素;
[0055] 根据已有完整数据,将部位、颜色、档次这三个物理特征属性,分别作为目标属性,构成训练数据。为了描述k‑近邻算法对训练数据集的适用性,利用五次十折交叉验证的方法找出k值的变化对预测的准确率的影响规律。实验中k的取值范围选定在[1,20],部位、颜色、档次的准确率结果随着k值变化的折线图如图1所示;
[0056] k值的变化确实会对预测的正确率产生显著的影响,图中三种情况均是k=1,2的结果最好。当k=1时,即寻找距离测量样本最近的训练样本作为该样本的类别,这种预测方法会使结果过度依赖最近的训练样本,容易带来比较大的误差。同时考虑k值过大会影响k‑近邻算法的性能和运行速度,因此,对这三种物理属性所对应的k取值情况列表1所示,以此作为对缺失数据进行补充时所需要的参数设置。
[0057] 表1物理指标最优k值及其对应平均正确率
[0058]
[0059] 步骤S22:将原来的配方数据整合成一种能表征卷烟配方特征类型的数据;
[0060] 原始的配方数据只包括所用单料烟的种类和用量,考虑到卷烟配方识别模型对输入数据的形式有所要求,需要将原来的配方数据整合成一种能表征卷烟配方特征类型的数据;
[0061] 根据配方原始数据中的单料烟编码,在单料烟信息表中分别找到编码对应的单料烟信息,即为配方中一条单料烟的信息。选择部分特征属性作为表征配方的属性进行整合。条件属性选择为一个完整配方的物理特征,包括各部位总比例(包括上部、中部、下部比例)、各颜色总比例(桔黄色、柠檬黄色、青黄色、深桔黄色、微青色、杂色比例)、各档次总比例(上等、中等、下等比例)以及化学元素特征(包括总糖、总烟碱、还原糖、总氮、钾、氯、蛋白质、施木克值含量)。其中,物理特征部分只要通过普通的比例加和进行计算即可。化学特征部分需要通过公式计算得到,配方的化学元素含量的计算公式如下:
[0062]
[0063] 其中,i=1~n表示配方中的第i种单料烟,而该配方由n种单料烟组成;j=1~8表示八种化学元素,eij表示第i种单料烟的第j个化学元素含量,ui表示第i种单料烟的用量;
[0064] 经过以上步骤,即可得到一组配方的特征属性,对六个品牌的所有配方进行同样的操作,最终得到六个品牌388组配方的特征属性值。
[0065] 步骤S23:利用CAIM(class‑attribute interdependence maximization)方法对成品烟配方属性离散化;
[0066] 由于目前贝叶斯网络只能处理两种数据类型,第一种是符合高斯分布(也称正态分布)的连续型变量,另一种是离散型变量。因此,需要对成品烟配方属性进行正态性检验。本发明使用Minitab对各成品烟配方属性进行正态性检验,其中,化学元素部分的正态性检验结果如图2所示;
[0067] 用Minitab进行正态性检验时,当变量满足正态分布的时候,检验结果需满足条件p>0.05。由图2可知,仅仅化学元素均不满足正态分布,所以贝叶斯网络无法对连续型变量进行处理,即所有成品烟配方属性需要经过离散化,才能构建贝叶斯网络卷烟配方的识别模型;
[0068] CAIM算法是一种基于熵、自顶向下的有监督离散化算法,该算法以达到类与属性相关度最大化和最少的断点数为目标,使用决策属性与条件属性依赖度作为标准进行离散化处理,具有离散区间数目最少、时间复杂度小、精度和效率相对较高等优点;
[0069] 假设决策表为S类,将连续属性a分为n个区间{[d0,d1],(d1,d2],...,(dn‑1,dn]},CAIM算法的离散判别式是caim值,其公式为:
[0070]
[0071] 其中,qir(i=1,2,...,S;r=1,2,...,n)表示在数据集中的第i类且属于区间(dr‑1,dr]的数据个数,maxr表示所有qir中的最大值,M+r表示区间(dr‑1,dr]的数据总和,n表示离散区间个数。caim值越大,表明类和属性的关系越相关,选择的断点越合理;
[0072] 通过CAIM离散化方法对配方各条件属性进行离散化处理后,结果如表2所示。
[0073] 表2物化成分指标离散化结果
[0074]
[0075]
[0076]
[0077] 步骤S3:运用统计工具对卷烟配方数据进行了统计分析;
[0078] 步骤S31:化学元素属性间的相关性分析;
[0079] SPSS软件的相关性分析通常用Pearson相关系数来表示变量之间的相关程度。皮尔逊(Pearson)系数,又称积差系数,其计算公式为:
[0080]
[0081] 式中, 为变量x的平均值, 为变量y的平均值,σx是变量x的标准差;σy是变量y的标准差,n为样本个数;
[0082] 通过SPSS软件对配方化学元素以及品牌类别进行相关性分析,相关性分析采用Pearson相关系数,选择双侧检验,结果如表3所示;
[0083] 表3配方化学元素的相关关系
[0084]
[0085]
[0086] 双侧显著性检验结果小于0.01的属于强显著相关范畴,处于0.01到0.05之间的属于显著相关范畴。由结果观察知,配方对应的品牌类别与总糖、钾、蛋白质含量呈强显著相关关系,与还原糖呈显著相关关系。另外,部分化学元素之间也存在较显著的相关关系。
[0087] 步骤S32:单料烟在配方中使用频率分析;
[0088] 单料烟的使用频次反映了单料烟在品牌配方使用的次数,以此可以衡量该单料烟一旦缺失将对该品牌造成的影响,本发明分析六个品牌中单料烟的使用频次的情况,结果如图3所示;
[0089] 由图3观察知,同一产地、同一工厂的这六个品牌的配方中使用次数较高的单料烟中存在明显的交叉现象。例如,单料烟JC1A1CO2S009在品牌1到品牌5的配方中的使用次数均为高频;单料烟WS110C2F1109在品牌2、品牌4、品牌6中的使用次数均为高频;单料烟JC1A1CO2S009在品牌3、品牌4、品牌5中的使用次数均为高频。对于使用频次较高的单料烟,工厂以及产地要尽可能地保证原料的正常供应,以此满足卷烟生产过程所需。
[0090] 步骤S33:配方部位、颜色、档次比例随配方变化过程的波动情况分析;
[0091] 根据配方数据,六个品牌分别按照配方使用的变化情况计算出各部位、颜色、档次的比例变化;
[0092] 各品牌的各部位比例区间统计的波动情况如表4所示;
[0093] 表4六个品牌各部位比例的波动区间
[0094]
[0095] 各品牌的各颜色比例区间统计的波动情况如表5所示;
[0096] 表5六个品牌各颜色比例的波动区间
[0097]
[0098] 各品牌的各档次比例区间统计的波动情况如表6所示。
[0099] 表6六个品牌各档次比例的波动区间
[0100]
[0101] 步骤S34:配方替代前后物化指标的变化量的统计分析;
[0102] 配方历史数据是根据时间顺序进行排列变化的,各个品牌的配方随着时间变动不大,相似性较高,可认为后一个配方替换前一个配方。将配方历史数据每两两进行比较,同时考虑配方使用的单料烟以及用量的情况,略去单料烟以及对应用量相同的部分,只保留单料烟或者用量不同的部分。
[0103] 步骤S341:物理指标的变化;
[0104] 对于部位、颜色、档次等物理指标,去除两两配方相同的部分,只留下单料烟不同或者单料烟相同但用量不同的部分。以部位为例,如果配方替换前后,单料烟的部位种类不发生变化,则认为在相同部位内替换一次。若上一个配方的不同部分保留的单料烟部位是上部、中部,下一个配方的不同部分保留的单料烟部位是上部,中部,则替换前后单料烟的种类是相同的,则认为此次替换是在同部位中进行替换,则同部位替换次数加1;若上一个配方的不同部分保留的单料烟部位是上部、中部,下一个配方的不同部分保留的单料烟部位是上部,则替换前后单料烟的种类是不同的;
[0105] 六个品牌的配方每两两配方比较,将执行382次替换,除去4次没有更改配方的情况,相当于替换378次。同部位、同颜色、同档次替换的次数及百分比见表7;
[0106] 表7六个品牌同部位、同颜色、同档次的替换频次
[0107]
[0108] 比较结果可知,在配方替换的过程中,同档次替换的次数最多,所以卷烟配方维护过程中优先考虑同档次替换。接着考虑同部位替换,最后考虑同颜色替换。
[0109] 步骤S342:化学元素的变化;
[0110] 将六个品牌的配方数据的化学元素的变化情况画成折线图,其中,总糖的变化情况如图4所示,因为点数过多,所以仅截取1个品牌的变化情况;
[0111] 同样的,对其他化学元素也进行了分析(图略)。可以发现,配方替换过程中,各个替代部分化学元素波动的变化量相比化学元素总量来说很小。因此,考虑化学元素含量变化量最小可以作为配方维护过程的另一参考。
[0112] 步骤S4:建立基于贝叶斯网络的卷烟配方识别模型,进行规则提取;
[0113] 所述的贝叶斯网络识别算法流程如图5所示。
[0114] 步骤S41:采集配方历史数据以及单料烟信息数据,并对成品烟配方属性进行离散化处理,建立贝叶斯网络的学习数据集;
[0115] 由图2可知,仅仅化学元素均不满足正态分布,所以贝叶斯网络无法对连续型变量进行处理,即所有成品烟配方属性需要经过离散化,才能构建贝叶斯网络卷烟配方的识别模型,所以对成品烟配方属性进行离散化处理;
[0116] 离散化之后,选择条件属性为配方表的各个属性值(所选的配方属性有配方的部位、颜色、档次、化学元素等,具体包括配方中的上部烟、中部烟、下部烟比例,杂色、微青色、青黄色、桔黄色、柠檬黄色、深桔黄色比例,上等烟、中等烟、下等烟比例,总糖、总烟碱、还原糖、总氮、钾、氯、蛋白质、施木克值含量)。决策属性为配方对应的品牌类别。
[0117] 步骤S42:基于贝叶斯网络的卷烟配方识别算法设计,建立贝叶斯网络;
[0118] 贝叶斯网络的学习过程对于贝叶斯网络的建立来说是非常重要的,其通常是指通过分析样本数据进行概率计算从而建立贝叶斯网络的过程。其过程分为结构学习和参数学习两步。
[0119] 步骤S421:利用K2算法作为本发明构建贝叶斯网络的结构学习方法;
[0120] K2算法是从一个包含所有节点、但却没有边的无边图出发,然后按照给定的节点顺序通过不断地搜索迭代为每个节点寻找出给定数量的父节点,进而形成由父节点指向子节点的有向边;
[0121] 对于给定的数据集D,K2算法的评分函数是后验概率,对于结构 和 由于[0122]
[0123] 因此只需考虑联合概率即可:
[0124] p(GB,D)=p(GB)p(D|GB)
[0125] 则打分函数为:
[0126]
[0127]
[0128] 其中p(GB)是结构先验概率,ri表示节点Xi的状态数,Nijk是在数据集D中满足且π(Xi)=j的情况数量,而且
[0129] K2算法伪代码如表8所示。
[0130] 表8K2算法伪代码
[0131]
[0132]
[0133] 步骤S422:利用最大似然估计方法构建贝叶斯网络的参数学习方法;
[0134] 本发明的参数学习最终采用的是最大似然估计方法。参数的似然函数为:L(θ|D)=P(D|θ),该函数用来判断参数与数据集之间的拟合程度,如果这个概率越大,则说明参数θ与数据集D的拟合程度越高;
[0135] 参数θ的最大似然估计就是使得其对应的似然函数的取值达到最大的取值θ*,即:
[0136]
[0137] 考虑一个由n个变量X={X1,X2,...,Xn}组成的贝叶斯网N:
[0138]
[0139] 其中,
[0140]
[0141] Nijk表示在数据集中符合Xi=k且π(Xi)=j的样本数目;
[0142] Nij表示在数据集中π(Xi)=j的样本数目。
[0143] ri表示节点Xi的状态数;
[0144] π(Xi)表示贝叶斯网络的联合概率;
[0145] 步骤S423:利用诊断推理的方式,由底向上、由结论推知原因;
[0146] 本发明的贝叶斯网络采用诊断推理的方式,即由底向上、由结论推知原因。该推理的方式是在已知某种现象或者结果的基础上,经过贝叶斯网络的推理计算而得到造成这种现象发生的某种原因组合对应的概率。
[0147] 步骤S43:基于贝叶斯网络的卷烟配方规则提取;
[0148] 考虑卷烟品牌对配方属性的影响(品牌节点作为根节点),得出的贝叶斯网络的网络拓扑图如图6所示。
[0149] 步骤S431:定性知识表述;
[0150] 青黄色比例、杂色比例在本次配方数据中只有一种取值状态,即比例在所有配方数据中取值为0,经过参数学习所得概率也为0,因此这两个节点孤立即不存在父节点。从而从图6中提取的定性知识规则如下:
[0151] 上部比例取决于卷烟品牌;
[0152] 中部比例取决于卷烟品牌、下等比例、上部比例;
[0153] 下部比例取决于卷烟品牌、下等比例、上部比例、中部比例;
[0154] 桔黄色比例取决于中部比例、下部比例;
[0155] 柠檬黄色比例取决于卷烟品牌、下部比例、桔黄色比例;
[0156] 深桔黄色比例取决于卷烟品牌、下等比例、桔黄色比例、柠檬黄色比例;
[0157] 微青色比例取决于桔黄色比例、深桔黄色比例;
[0158] 上等比例取决于卷烟品牌、下部比例、深桔黄色比例;
[0159] 中等比例取决于下等比例、上等比例;
[0160] 下等比例取决于卷烟品牌;
[0161] 总糖比例取决于微青色比例;
[0162] 总烟碱比例取决于下等比例、总糖比例;
[0163] 还原糖比例取决于总糖比例;
[0164] 总氮比例取决于卷烟品牌、微青色比例;
[0165] 钾比例取决于总氮比例;
[0166] 氯比例取决于卷烟品牌、总氮比例;
[0167] 蛋白质比例取决于下等比例、微青色比例;
[0168] 施木克值比例取决于总氮比例、蛋白质比例。
[0169] 步骤S432:定量知识描述——规则提取;
[0170] 通过贝叶斯网络的参数学习,每个具有父节点的子节点都具有一系列规则,指的是当已知父节点取值的时候,子节点有一定的概率取对应的值。本发明确定概率的阈值为0.7,将p>0.7的规则作为强概率规则,将这些强概率规则提取出来,输出规则形式如表9;
[0171] 表9贝叶斯网络输出的规则形式
[0172]
[0173] 此规则表达的意义为,当品牌为1、下部比例取值为1、深桔黄色比例取值为3时,上等比例取3的概率是0.999417。表示为if...then规则的形式为:if<品牌>=1,<下部>=1,<深桔黄色>=3,then<上等>is<0.999417>to be 3;
[0174] 对每个具有父节点的子节点输出规则数目如表10所示;
[0175] 表10贝叶斯网络输出规则的数目
[0176]
[0177] 共计输出239条规则,由于使用贝叶斯网络得到的卷烟配方识别模型的平均准确率是85.95%,说明提取的规则有较高的准确率。
[0178] 步骤S5:构建卷烟配方维护的启发式方法;
[0179] 所述启发式方法为:基于聚类和贝叶斯网络的相关知识,提出卷烟配方维护的思路。整体思路框架如图7所示;
[0180] 首先,将单料烟利用聚类的方法按照属性特征划分为多个类,每个类下的单料烟在所选属性特征下则存在相似之处,当一种单料烟缺失时,找出该单料烟所归属的类别下的其他单料烟作为最初的单料烟替代的候选集。其次,替代烟的用量依次遍历取历史用量,然后替代缺失单料烟补充缺失配方,并重新计算该配方的特征属性。最后,将补充完整的配方属性信息放入贝叶斯网络分类器中进行预测,验证新的配方是否与原配方属于同一品牌。
[0181] 步骤S51:数据描述;
[0182] 根据已有的配方数据以及单料烟信息表,对数据进行处理。
[0183] 步骤S511:单料烟替换表;
[0184] 按照时间的先后顺序对同一成品烟品牌的配方数据进行排列并进行两两比较,将每两个配方用到的相同种类的单料烟删除,整理保留下这两个配方各自用到的不同种类的单料烟,因为本发明只考虑缺失一种单料烟的情况,所以只需从中筛选出一种单料烟来替换另一种单料烟的数据即可。
[0185] 步骤S512:单料烟信息表;
[0186] 统计出步骤S511中的成品烟品牌下用到的所有单料烟种类,并记下对应的单料烟编码及物料描述,根据物料描述在单料烟信息表查找出每个单料烟对应的属性特征,如部位、颜色、档次、化学元素等等;
[0187] 重复以上两个步骤,即可得出单料烟替换表以及缺失品牌用到的所有单料烟信息表。
[0188] 步骤S52:利用加权聚类算法将单料烟按照属性特征划分为多个类;
[0189] 步骤S521:对数据进行归一化;
[0190] 由于原始数据之间量纲的不同,在对数据进行聚类之前,需要先对其进行归一化,将其转化为无量纲的纯数值即数据统一到0~1的范围内,以便于不同单位的变量能够进行强弱关系的比较和加权。对所有的属性,归一化公式如下:
[0191]
[0192] 其中,x是某一条件属性的原始值,min(A)和max(A)分别为属性A的最小值和最大值。
[0193] 步骤S522:加权聚类算法;
[0194] 本发明将采用k‑means聚类算法,由于数据中的属性特征的概率分布比较复杂,此时计算每个不确定对象到聚类中心的距离会对聚类结果产生较大的影响,因此k‑means聚类算法的一般假设中,即所有属性特征对计算的距离的结果的影响是相同存在不合理性。所以,让专家根据每个品牌的独有的产品特征和对应的感官特点给予其一组权重值是十分必要且有价值的,如果权重数值越大,则说明其对应的属性特征在进行聚类时的影响作用就越大;
[0195] 加入权重后的距离计算公式为:
[0196]
[0197] 式中x′ip表示样本xi的条件属性p进行归一化后的值,wp表示样本xi的条件属性p的权重值。
[0198] 步骤S5221:聚类规则性能描述;
[0199] 基于对现有配方数据知识的了解,按照步骤S51数据描述的内容,已经找出相邻两个时间段的配方属于“一对一”替换类型的配方数据。为了衡量聚类规则的效果的好坏,本发明提出以下的判断标准以及确定k值的方法,步骤如下:
[0200] 步骤S52211:将缺失配方用过的所有单料烟进行聚类;
[0201] 步骤S52212:k取值范围是1~10,从k=1开始,依据统计的属于“一对一”替换类型的单料烟编码依次在步骤S52211结果中查找其对应的类别。若替换前后单料烟的类别一致,则该次替换符合同类替换,替换正确数加1;
[0202] 步骤S52213:重复执行步骤S52212,分别得出k=2~10对应的正确替换的次数;
[0203] k‑Acc用于描述样本在聚类为k类的正确率,以此确定聚类的种类数。计算公式:
[0204]
[0205] 其中nk为在聚类为k类所对应的替换正确次数,N为总替换次数,即出现“一对一”配方替换情况的次数。
[0206] 步骤S5222:加权前后聚类规则效果对比以及k值的确定;
[0207] 本发明以同一产地、同一工厂的六个品牌的配方数据为例,对这六个品牌分别统计出对应的配方个数以及“一对一”替换的次数见表11,然后对加权前后聚类规则效果对比以后,结果如图8所示;
[0208] 表11六个品牌对应的配方个数以及“一对一”替换的次数
[0209]
[0210] 由图8可知,对比聚类规则加权前后的结果,加权后的聚类规则比未加权的聚类规则的效果较好些,综合比较不同k值对结果的影响,最终决定取k=7,即把所有用到单料烟划分为七簇。
[0211] 步骤S53:建立卷烟配方维护启发式方法的算法;
[0212] 根据图7所示的框架结构确定的算法步骤如下:
[0213] 步骤S531:将该成品烟品牌用到的所有单料烟按照所选属性进行聚类分成若干簇。聚类的条件属性选择如图9所示,决策属性是单料烟所在簇的类别;
[0214] 步骤S532:按照单料烟编码查找缺失单料烟所在的簇,将此簇下的所有单料烟作为第一步的替代单料烟候选集;
[0215] 步骤S533:从单料烟候选集中的第一个单料烟开始,其用量遍历取该品牌中的单料烟历史用量值,依次计算补全的配方对应的属性特征,替代缺失单料烟放入缺失配方中;
[0216] 步骤S534:将步骤S533得到的配方的属性特征依次输入贝叶斯网络识别器中,判断补全后的配方是否是原配方类别,若是,则认为此单料烟可替代缺失单料烟,若否,则对候选集中下一个单料烟执行此操作;
[0217] 步骤S535:重复执行步骤S533和步骤S534,找出可以替代缺失单料烟的所有单料烟;
[0218] 步骤S536:将步骤S535得到的单料烟候选集根据其在贝叶斯网络识别器中的概率的高低顺序进行排序,从而得到可以进行替换的单料烟的优先顺序,对于概率一致的情况,再按照新得到的感官与原配方感官的欧氏距离从小到大排序;
[0219] 算法实现的具体流程图如图10所示。
[0220] 为了验证本发明的一种基于贝叶斯网络的卷烟配方规则提取和配方维护的方法的性能,将进行卷烟配方维护的结果和验证;
[0221] 卷烟配方的替代和验证是同时进行的。比如,当配方1缺失单料烟为BX110B1OC311时,由步骤S51的方案可得出替代单料烟的结果且部分如表12所示;
[0222] 表12的概率是由贝叶斯网络识别模型得到的,即替代配方跟原配方属于同一品牌的概率,以0.9作为阈值,只保留p>0.9的单料烟作为候选单料烟,并将候选单料烟按照概率值从高到低的顺序进行排列,概率越高,说明与原配方属于同一品牌的概率越大,即与原配方的属性特征越相似;
[0223] 表12替代单料烟的部分初步结果
[0224]
[0225]
[0226] 观察表中的结果可知,替代单料烟的候选集中会出现一种单料烟对应多个用量的情况,这是贝叶斯网络卷烟配方识别模型前进行数据的离散化所导致的,当某些属性的比例相差很小时,对应的离散化后的数值可能不发生变化。因此,针对一种单料烟对应多种用量的情况,分别计算将每种用量替代到缺失单料烟后的配方的各化学成分特征,并将其输入到BP神经网络中进行成品烟的感官评估,计算新配方与原始配方的感官指标的欧式距离,其距离越小,则新配方与原始配方的整体感官特征最接近,于是取欧式距离最小的一个用量作为该替代单料烟的最终用量;
[0227] 为了确定替代单料烟的最终优先顺序,首先按照贝叶斯网络概率推理的结果,将得到的概率从大到小排序,对于概率一致的情况,再按照新得到的感官与原配方感官的欧氏距离从小到大排序。最终得到的替代单料烟结果如表13所示,表中包括替换后的配方与原配方感官特征的欧式距离;
[0228] 通过观察表13中的替换后配方的感官与原配方的欧式距离可以看出,替换前后成品烟感官特征极为相似,符合配方替代的要求。
[0229] 表13替代单料烟的部分最终结果
[0230]
[0231]
[0232] 以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
[0233] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

附图说明

[0037] 图1是数据预处理中缺失数据的参数设置图,其中,示意部位、颜色、档次的准确率随着k值变化的结果;
[0038] 图2是数据预处理中数据离散化的正态分布检验结果图,其中,示意配方化学成分指标的正态分布检验结果;
[0039] 图3是单料烟统计分析图,其中,示意品牌1~6的高频单料烟;
[0040] 图4是配方替代前后总糖含量的变化结果图;
[0041] 图5是卷烟配方识别算法流程图;
[0042] 图6是规则提取的贝叶斯网络的网络拓扑图;
[0043] 图7是卷烟配方维护的总体方案框架图;
[0044] 图8是卷烟配方维护的加权聚类的结果比较图;
[0045] 图9是卷烟配方维护的条件属性图;
[0046] 图10是卷烟配方维护的主要流程图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号