首页 > 专利 > 山东师范大学 > 一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统专利详情

一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2016-06-20
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2016-12-14
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-02-08
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2036-06-20
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201610447484.3 申请日 2016-06-20
公开/公告号 CN106127634B 公开/公告日 2022-02-08
授权日 2022-02-08 预估到期日 2036-06-20
申请年 2016年 公开/公告年 2022年
缴费截止日
分类号 G06Q50/20G06K9/62 主分类号 G06Q50/20
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 3
权利要求数量 4 非专利引证数量 1
引用专利数量 1 被引证专利数量 0
非专利引证 1、2005.04.14路颖.基于贝叶斯网络对高校学生学习成绩预警技术研究《.河北旅游职业学院学报》.2008,第75~78页.;
引用专利 US2005080663A 被引证专利
专利权维持 6 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 山东师范大学 当前专利权人 山东师范大学
发明人 薛若娟 第一发明人 薛若娟
地址 山东省济南市历下区文化东路88号 邮编 250014
申请人数量 1 发明人数量 1
申请人所在省 山东省 申请人所在市 山东省济南市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
济南圣达知识产权代理有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
张勇
摘要
本发明公开了一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统,通过获取学生的学习数据,并将获取的数据传输至第一服务器的数据库中;针对数据库中存储的学生的学习数据,进行数据转换,得到规范化的学生学习状况数据表;针对规范化的学生学习状况数据表,通过服务器中的计算单元计算不同类别中各属性的条件概率及不同类别的先验概率;将待预测的学生数据进行数据转换后输入至训练好的朴素贝叶斯模型进行学生数据分类预测。本发明采用的基于朴素贝叶斯模型,所述模型用于实现学生学业成绩的精确预测,可靠性高。
  • 摘要附图
    一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
  • 说明书附图:图1
    一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
  • 说明书附图:图2
    一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
  • 说明书附图:图3
    一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
  • 说明书附图:图4
    一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
  • 说明书附图:图5
    一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-02-08 授权
2 2016-12-14 实质审查的生效 IPC(主分类): G06Q 50/20 专利申请号: 201610447484.3 申请日: 2016.06.20
3 2016-11-16 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于朴素贝叶斯模型的学生学业成绩预测方法,其特征是,包括以下步骤:
步骤一:获取学生的学习数据,并将获取的数据传输至第一服务器的数据库中;所述学生的学习数据包括学生的学业成绩信息,其中学业成绩为教学管理系统数据库服务器中存储的信息,教学管理系统数据库服务器与第一服务器进行通信,将学生的学业成绩传输至第一服务器中;在第一服务器中对学生数据转换,根据学生信息数据所在的区间,将得到的连续型数据分段转换为等级数据;所述学业成绩信息包括学生邻近两个学期的学业成绩和入学学业成绩,其中前一学期的学业成绩情况和入学学业成绩情况,将作为学生个体的历史学业成绩属性;后一学期的学业成绩情况将作为学生学业成绩的分类结果;所述学生的学习数据还包括学习行为信息,学习行为信息的获取通过数据采集终端,数据采集终端可为计算机或可移动智能设备;学生学业成绩的具体获取时,利用学生的学号为检索词从教学管理系统数据库服务器中提取出该学生成绩数据和其所在班级的班级成绩表;
步骤二:对数据库中存储的学生的学习数据,进行数据转换,得到规范化的学生学习状况数据表;
步骤三:对规范化的学生学习状况数据表,通过第一服务器中的计算单元计算不同类别中各属性的条件概率及不同类别的先验概率,学习朴素贝叶斯模型的参数,得到朴素贝叶斯模型;
条件概率参数在计算时,具体为:
3‑1)遍历规范化的学生学习状况数据表,从中统计类别为Ci的学生的数量,输出Count(Ci);
3‑2)遍历规范化的学生学习状况数据表,从中统计类别为Ci且第r个属性的属性值为xr的学生的数量,输出Count(xr|Ci);
3‑3)遍历规范化的学生学习状况数据表,从中统计学生学业成绩类别的数量,输出数量值K;
3‑4)根据步骤3‑1)所得的Count(Ci)、步骤3‑2)所得的Count(xr|Ci)、步骤3‑3)所得的K,计算P(xr|Ci),并输出P(xr|Ci),计算公式为:
其中,λ取为0.1;
先验概率参数在计算时,具体为:
1)遍历规范化的学生学习状况数据表,从中统计类别为Ci的学生的数量,输出Count(Ci);
2)遍历规范化的学生学习状况数据表,从中统计学生学业成绩类别的数量,输出数量值K;
3)遍历规范化的学生学习状况数据表,从中统计学生的总数量,输出数量值N;
4)根据步骤1)所得的Count(Ci)、步骤2)所得的K、步骤3)所得的N,由公式计算P(Ci),并输出P(Ci);计算公式为:
其中,λ取为0.1;
步骤四:将待预测的学生数据进行数据转换后输入至训练好的朴素贝叶斯模型进行学业成绩分类预测,获得学生学业成绩预测结果并通过显示单元进行显示。

2.如权利要求1所述的一种基于朴素贝叶斯模型的学生学业成绩预测方法,其特征是,对于学业成绩信息,包括学生邻近两个学期的学业成绩和入学学业成绩情况,此数据需要进行转换处理,具体处理流程:
获得班级成绩表,根据学生的考试科目数量,计算出学生的平均成绩,并按学生的平均成绩排序,输出班级名次表;并输出班级学生总数;
根据班级名次表和学生成绩数据,查询学生的名次,并输出;
根据学生名次和班级学生总数,判断学生名次在班级中的总体位置;
如果属于前20%,则输出学生学业成绩等级为A;如果位于20%之后、40%之前,则输出学生学业成绩等级为B;如果位于40%之后、60%之前,则输出学生学业成绩等级为C;如果位于60%之后、80%之前,则输出学生学业成绩等级为D;如果位于后20%,则输出学生学业成绩等级为E。

3.如权利要求1所述的一种基于朴素贝叶斯模型的学生学业成绩预测方法,其特征是,在步骤四中,具体步骤为:
4‑1)根据所得的概率参数P(xr|Ci)、P(Ci),计算各个类别Ci的P(X|Ci)P(Ci)值;
4‑2)对比步骤4‑1)所获得的各个类别Ci所对应的P(X|Ci)P(Ci)值,将学生样本X的类别预测为具有最大P(X|Ci)P(Ci)值的Ci;
在步骤4‑1)中,计算过程为:
4‑1‑1)首先对于学生样本X的每个属性xr,依次获得计算出的条件概率参数P(xr|Ci)值;而后,根据公式P(X|Ci)=P(x1|Ci)×P(x2|Ci)×......×P(xn|Ci),将各个P(xr|Ci)相乘,得到P(X|Ci)值,并输出P(X|Ci)值;
4‑1‑2)将步骤4‑1‑1)计算而得的P(X|Ci)值与计算而得的先验概率参数P(Ci)值相乘,得到P(X|Ci)P(Ci)值,并输出P(X|Ci)P(Ci)值。

4.一种基于朴素贝叶斯模型的学生学业成绩预测系统,其特征是,包括:
数据获取模块:用于获取学生的学习数据,并将获取的数据传输至第一服务器的数据库中;所述学生的学习数据包括学生的学业成绩信息,其中学业成绩为教学管理系统数据库服务器中存储的信息,教学管理系统数据库服务器与第一服务器进行通信,将学生的学业成绩传输至第一服务器中;在第一服务器中对学生数据转换,根据学生信息数据所在的区间,将得到的连续型数据分段转换为等级数据;所述学业成绩信息包括学生邻近两个学期的学业成绩和入学学业成绩,其中前一学期的学业成绩情况和入学学业成绩情况,将作为学生个体的历史学业成绩属性;后一学期的学业成绩情况将作为学生学业成绩的分类结果;所述学生的学习数据还包括学习行为信息,学习行为信息的获取通过数据采集终端,数据采集终端可为计算机或可移动智能设备;学生学业成绩的具体获取时,利用学生的学号为检索词从教学管理系统数据库服务器中提取出该学生成绩数据和其所在班级的班级成绩表;
数据转换模块:用于针对数据库中存储的学生的学习数据,进行数据转换,得到规范化的学生学习状况数据表;
朴素贝叶斯模型建立模块:针对规范化的学生学习状况数据表,通过服务器中的计算单元计算不同类别中各属性的条件概率及不同类别的先验概率,得到朴素贝叶斯模型;
条件概率参数在计算时,具体为:
3‑1)遍历规范化的学生学习状况数据表,从中统计类别为Ci的学生的数量,输出Count(Ci);
3‑2)遍历规范化的学生学习状况数据表,从中统计类别为Ci且第r个属性的属性值为xr的学生的数量,输出Count(xr|Ci);
3‑3)遍历规范化的学生学习状况数据表,从中统计学生学业成绩类别的数量,输出数量值K;
3‑4)根据步骤3‑1)所得的Count(Ci)、步骤3‑2)所得的Count(xr|Ci)、步骤3‑3)所得的K,计算P(xr|Ci),并输出P(xr|Ci),计算公式为:
其中,λ取为0.1;
先验概率参数在计算时,具体为:
1)遍历规范化的学生学习状况数据表,从中统计类别为Ci的学生的数量,输出Count(Ci);
2)遍历规范化的学生学习状况数据表,从中统计学生学业成绩类别的数量,输出数量值K;
3)遍历规范化的学生学习状况数据表,从中统计学生的总数量,输出数量值N;
4)根据步骤1)所得的Count(Ci)、步骤2)所得的K、步骤3)所得的N,由公式计算P(Ci),并输出P(Ci);计算公式为:
其中,λ取为0.1;
学生学业预测模块:用于将待预测的学生数据进行数据转换后输入至训练好的朴素贝叶斯模型进行学生数据分类预测,获得学生学业预测结果并通过显示单元进行显示。
说明书

技术领域

[0001] 本发明涉及教育技术、计算机应用学科领域,具体涉及一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统。

背景技术

[0002] 目前,我国高等教育发展迅速,其中普通高等院校的数量已达到2500多所。近年来,生源的持续下降,给普通高等院校带来了巨大的生存危机。如何提高学生培养质量,提高学生的就业竞争能力,成为诸多高校亟需解决的一个问题。学生的学业成绩作为学生培养质量的一个重要核心指标,倍受高校管理者的关注。
[0003] 我国高等院校通常由团委辅导员(班主任)负责学生的日常管理、由教师负责学生的课程理论和专业技能教学。辅导员和教师之间往往缺乏有效的沟通交流,这会导致一部分同学因疏于管教而误入歧途,因学业成绩不佳而被迫延期毕业或退学。学生的学业成绩往往受到多方面的影响,包括学生以往成绩、学习能力、教师指导状况等诸多因素。如果能够根据学生的历史学业成绩和各方面的综合表现及素质情况,对学生的未来学业成绩进行预测;并根据学业成绩的预测结果,对可能出现问题的学生及时加强管理教育、督促其认真学习,以避免其出现无法通过学业考试的后果,这将大大方便辅导员对于学生的教育管理,对于提高学生的培养质量将起到重要作用。
[0004] 尽管目前各类教学管理系统在高等院校中已非常普遍,能够对学生的学习成绩进行有效的管理。但是,对学生的学业成绩进行预测分析的研究工作仍非常少见,亦未见到广泛实施。
[0005] 1、现有的教学管理系统,仅侧重于对于学生学习成绩数据的管理,而忽视了对学生其它行为数据的管理。对学生数据的收集并不完整,也难以对学生进行全面分析评价。
[0006] 2、对于学生成绩数据,目前仅仅是将学生成绩录入到教学管理系统;教学管理系统存储的均是学生成绩的历史数据。对学生的现有的能力进行评价仅仅是通过对学生成绩的历史数据分析得到,未采用相应的数据处理模型,无法实现对学生学业成绩的智能预测。
[0007] 本发明专利正是针对这些在学生学业成绩的预测时存在的技术问题,将数据挖掘技术应用于学业成绩的预测,实现一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统,力求能够推动这一研究的发展。

发明内容

[0008] 为解决现有技术存在的不足,本发明公开了一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统,本发明通过采用相应的数据获取及分析技术实现对学生学业成绩的智能预测。
[0009] 为实现上述目的,本发明的具体方案如下:
[0010] 一种基于朴素贝叶斯模型的学生学业成绩预测方法,包括以下步骤:
[0011] 步骤一:获取学生的学习数据,并将获取的数据传输至第一服务器的数据库中;
[0012] 步骤二:对数据库中存储的学生的学习数据,进行数据转换,得到规范化的学生学习状况数据表;
[0013] 步骤三:对规范化的学生学习状况数据表,通过第一服务器中的计算单元计算不同类别中各属性的条件概率及不同类别的先验概率,学习朴素贝叶斯模型的参数,得到朴素贝叶斯模型;
[0014] 步骤四:将待预测的学生数据进行数据转换后输入至训练好的朴素贝叶斯模型进行学业成绩分类预测,获得学生学业成绩预测结果并通过显示单元进行显示。
[0015] 进一步的,所述步骤一中,所述学生的学习数据包括学生的学业成绩信息,其中学业成绩为教学管理系统数据库服务器中存储的信息,教学管理系统数据库服务器与第一服务器进行通信,将学生的学业成绩传输至第一服务器中。
[0016] 进一步的,所述学业成绩信息包括学生邻近两个学期的学业成绩和入学学业成绩,其中前一学期的学业成绩情况和入学学业成绩情况,将作为学生个体的历史学业成绩属性;后一学期的学业成绩情况将作为学生学业成绩的分类结果。
[0017] 进一步的,所述步骤一中,所述学生的学习数据还包括学习行为信息,学习行为信息的获取通过数据采集终端,数据采集终端可为计算机或可移动智能设备。
[0018] 进一步的,所述学习行为信息具体包括学习时间、网上娱乐时间、图书馆使用频率及借阅图书类型等。
[0019] 进一步的,学生学业成绩的具体获取时,利用学生的学号为检索词从教学管理系统数据库服务器中提取出该学生成绩数据和其所在班级的班级成绩表。
[0020] 进一步的,在第一服务器中对学生数据转换,根据学生信息数据所在的区间,将得到的连续型数据分段转换为等级数据。
[0021] 进一步的,对于学业成绩信息,包括学生邻近两个学期的学业成绩和入学学业成绩情况,此数据需要进行转换处理,具体处理流程:
[0022] 获得班级成绩表,根据学生的考试科目数量,计算出学生的平均成绩,并按学生的平均成绩排序,输出班级名次表;并输出班级学生总数;
[0023] 根据班级名次表和学生成绩数据,查询学生的名次,并输出。
[0024] 根据学生名次和班级学生总数,判断学生名次在班级中的总体位置。
[0025] 如果属于前20%,则输出学生学业成绩等级为A;如果位于20%之后、40%之前,则输出学生学业成绩等级为B;如果位于40%之后、60%之前,则输出学生学业成绩等级为C;如果位于60%之后、80%之前,则输出学生学业成绩等级为D;如果位于后20%,则输出学生学业成绩等级为E。
[0026] 进一步的,在步骤三中,条件概率参数在计算时,具体为:
[0027] 3‑1)遍历规范化的学生学习状况数据表,从中统计类别为Ci的学生的数量,输出Count(Ci);
[0028] 3‑2)遍历规范化的学生学习状况数据表,从中统计类别为Ci且第r个属性的属性值为xr的学生的数量,输出Count(xr|Ci);
[0029] 3‑3)遍历规范化的学生学习状况数据表,从中统计学生学业成绩类别的数量,输出数量值K;
[0030] 3‑4)根据步骤3‑1)所得的Count(Ci)、步骤3‑2)所得的Count(xr|Ci)、步骤3‑3)所得的K,计算P(xr|Ci),并输出P(xr|Ci),计算公式为:
[0031]
[0032] 其中,λ取为0.1。
[0033] 进一步的,在步骤三中,先验概率参数在计算时,具体为:
[0034] 1)遍历规范化的学生学习状况数据表,从中统计类别为Ci的学生的数量,输出Count(Ci);
[0035] 2)遍历规范化的学生学习状况数据表,从中统计学生学业成绩类别的数量,输出数量值K;
[0036] 3)遍历规范化的学生学习状况数据表,从中统计学生的总数量,输出数量值N;
[0037] 4)根据步骤1)所得的Count(Ci)、步骤2)所得的K、步骤3)所得的N,由公式计算P(Ci),并输出P(Ci);计算公式为:
[0038]
[0039] 其中,λ取为0.1。
[0040] 进一步的,在步骤四中,具体步骤为:
[0041] 4‑1)根据所得的概率参数P(xr|Ci)、P(Ci),计算各个类别Ci的P(X|Ci)P(Ci)值;
[0042] 4‑2)对比步骤4‑1)所获得的各个类别Ci所对应的P(X|Ci)P(Ci)值,将学生样本X的类别预测为具有最大P(X|Ci)P(Ci)值的Ci。
[0043] 进一步的,在步骤4‑1)中,计算过程为:
[0044] 4‑1‑1)首先对于学生样本X的每个属性xr,依次获得计算出的条件概率参数P(xr|Ci)值;而后,根据公式P(X|Ci)=P(x1|Ci)×P(x2|Ci)×......×P(xn|Ci),将各个P(xr|Ci)相乘,得到P(X|Ci)值,并输出P(X|Ci)值;
[0045] 4‑1‑2)将步骤4‑1‑1)计算而得的P(X|Ci)值与计算而得的先验概率参数P(Ci)值相乘,得到P(X|Ci)P(Ci)值,并输出P(X|Ci)P(Ci)值。
[0046] 一种基于朴素贝叶斯模型的学生学业成绩预测系统,包括:
[0047] 数据获取模块:用于获取学生的学习数据,并将获取的数据传输至第一服务器的数据库中;
[0048] 数据转换模块:用于针对数据库中存储的学生的学习数据,进行数据转换,得到规范化的学生学习状况数据表;
[0049] 朴素贝叶斯模型建立模块:针对规范化的学生学习状况数据表,通过服务器中的计算单元计算不同类别中各属性的条件概率及不同类别的先验概率,得到朴素贝叶斯模型;
[0050] 学生学业预测模块:用于将待预测的学生数据进行数据转换后输入至训练好的朴素贝叶斯模型进行学生数据分类预测,获得学生学业预测结果并通过显示单元进行显示。
[0051] 本发明的有益效果:
[0052] 1、本发明提出基于朴素贝叶斯模型的学生学业成绩预测方法,可预测学生的未来的学业成绩,以便于高等院校加强对学生的教育管理。
[0053] 2、本发明通过学生的历史学业成绩和学习行为信息等14个属性来描述学生样本,其样本数据可由学校的教学管理系统和数据采集终端获取,其数据来源简便且精确,便于在高等院校广泛推广。
[0054] 3、本发明针对获取的数据进行数据转换,得到规范的学生学习状况数据表,根据学生信息数据的所在的区间,将其分段转换为等级数据,以减少属性值的数量,便于后续模型建立时数据的利用。
[0055] 4、本发明将获得的学生的数据信息均存储至第一服务器的数据库中,以便后续数据的调用及处理方便,且保证数据的安全性及稳定性。
[0056] 5、目前高等院校辅导员的学生管理任务繁重,难以顾及到每个学生,本发明将能够有效地为辅导员预测出学业即将出现问题的学生,这对于加强辅导员工作的针对性,提高高等院校的学生培养质量将起到有益的作用。
[0057] 6.本发明采用的朴素贝叶斯模型,所述模型用于实现学生成绩的精确预测,可靠性高。

附图说明

[0058] 图1本发明的整体预测流程图;
[0059] 图2本发明的学生学业成绩的具体获取流程图;
[0060] 图3本发明的学业成绩信息数据进行转换处理具体处理流程图;
[0061] 图4本发明的计算在不同类别下各属性的概率参数具体流程图;
[0062] 图5本发明的计算各个类别条件概率及先验概率之积的具体流程图。具体实施方式:
[0063] 下面结合附图对本发明进行详细说明:
[0064] 如图1所示,本发明的基于朴素贝叶斯模型的学生学业成绩预测方法包括以下主要步骤:
[0065] 步骤一:对学生数据进行收集,包括学生的学业成绩和学习行为信息;
[0066] 步骤二:对学生数据进行转换处理,得到规范的学生学习状况数据表;
[0067] 步骤三:由规范的学生学习状况数据表,构建基于朴素贝叶斯模型的学生学业成绩预测模型,学习预测模型的参数;
[0068] 步骤四:根据所获得的模型概率参数,利用朴素贝叶斯模型预测学生的学业成绩类别。
[0069] 利用本发明,可以根据学生的日常学习状况,预测学生的未来的学业成绩,能够便于高等院校加强对学生的教育管理。
[0070] 步骤一中,其中,学生的学业成绩可由教学管理系统数据库直接导出,其它学习行为信息等或者通过对学生开展调查问卷而得(也可借助于网络发放电子调查问卷)或者采用数据采集终端获取,优选的选用数据采集终端的方式获取,数据采集终端为计算机终端或者可移动设备,以学号作为学生的ID,每个学生均有且只有一个学号,每个学号下存在相应的一条数据记录,因为这样获取的数据能够避免调查问卷可能存在的造假而导致的失真数据的问题。
[0071] 当通过网络发放电子调查问卷获取数据时,电子调查问卷与学生的学号一一对应,将每个学生所填写的内容进行统一汇总并处理。
[0072] 对于其它学习行为信息可以包括:学生学习时间、按时上课情况、网上娱乐时间、图书馆使用频率、借阅图书类型、时间管理能力、学习能力、课外活动、教师指导情况、家庭指导情况、专业兴趣。
[0073] 例如,学生学习时间开始时,计算机开始计时,学生学习时间结束时,计算机计时结束,继而得到该学生的学习时间;
[0074] 按时上课情况,通过指纹识别的方式,每个学生在上课时进行指纹识别,没有进行指纹识别的学生则为缺课,通过这种方式获取学生的按时上课情况。
[0075] 网上娱乐时间的获取与学生学习时间的获取方式类似。
[0076] 图书馆使用频率、借阅图书类型可以通过学校的图书管理系统中的数据库服务器中获取,将图书管理系统中的数据库服务器中存储的数据传输至计算机中。
[0077] 时间管理能力、学习能力、课外活动、教师指导情况、家庭指导情况、专业兴趣等数据可以综合个人自我评价和教师、同学的他人评价而确定。
[0078] 各类学生信息的属性如表1所示。
[0079] 表1
[0080]
[0081]
[0082] 对于学业成绩信息,收集学生邻近两个学期的学业成绩和入学学业成绩情况,其中前一学期的学业成绩情况和入学学业成绩情况,将作为学生个体的历史学业成绩属性;后一学期的学业成绩情况将作为学生学业成绩的分类结果。各种学生学业成绩的具体获取步骤均如图2所示。根据学生的学号和学校的学生成绩数据库,从中提取出学生成绩数据和其所在班级的班级成绩表。
[0083] 步骤二中,对于学业成绩信息,包括学生邻近两个学期的学业成绩和入学学业成绩情况,此数据需要进行转换处理。具体处理流程如图3所示。
[0084] 对获得的班级成绩表,根据学生的考试科目数量,计算出学生的平均成绩,并按学生的平均成绩排序,输出班级名次表;并输出班级学生总数。
[0085] 根据班级名次表和学生成绩数据,查询学生的名次,并输出。
[0086] 根据学生名次和班级学生总数,判断学生名次在班级中的总体位置。如果属于前20%,则输出学生学业成绩等级为A;如果位于20%之后、40%之前,则输出学生学业成绩等级为B;如果位于40%之后、60%之前,则输出学生学业成绩等级为C;如果位于60%之后、
80%之前,则输出学生学业成绩等级为D;如果位于后20%,则输出学生学业成绩等级为E。
[0087] 将其它学习行为信息、转换后的学业成绩信息组合在一起,得到学生学习状况数据表。
[0088] 在本实施例中,假定得到如表2所示的学生学习状况数据表。
[0089] 表2
[0090]
[0091]
[0092] 步骤三中,由规范的学生学习状况数据表,构建基于朴素贝叶斯模型的学生学业成绩预测模型,学习预测模型的参数。
[0093] 为便于表述,本发明将表2中的字段“后一学期的学业成绩情况”记作C,其A、B、C、D、E五个类别分别记作C1、C2、C3、C4、C5;将表2中的其它13个字段,依次记作R1~R13。
[0094] 根据朴素贝叶斯模型,学生X的后一学期学业成绩的类别C可由公式(1)而预测。
[0095]
[0096] 在朴素贝叶斯模型中,属性被认为是相互条件独立的。因此,公式(1)中的P(X|Ci)可由公式(2)计算。
[0097] P(X|Ci)=P(x1|Ci)×P(x2|Ci)×......×P(xn|Ci)     (2)
[0098] 为避免出现零概率的情况,本发明采用拉普拉斯算法对公式(1)和(2)中的概率进行平滑处理,如公式(3)和(3)所示。
[0099]
[0100]
[0101] 其中,λ取为0.1,K为学业成绩类别的数量,N为学生的总数;Count(xr|Ci)表示类别为Ci的样本中,第r个属性值为xr的学生的数量;Count(Ci)表示类别为Ci的学生的数量。
[0102] 以学生X为例,假定根据对X的数据进行转换处理后,其学习时间、按时上课情况、网上娱乐时间、图书馆使用频率、借阅图书类型、时间管理能力、学习能力、课外活动、教师指导情况、家庭指导情况、专业兴趣、前一学期的学业成绩情况、入学学业成绩情况分别为:4、C、2、<2、小说、差、一般、较好、一般、较好、有、C、B。
[0103] 为了对学生X的当前学期的学业成绩进行预测,需要首先根据学生学习状况数据表,学习基于朴素贝叶斯模型的学生学业成绩预测模型的各种概率参数。具体实施步骤如下所述。
[0104] 根据学生学习状况数据表,计算在不同类别下各属性的概率参数P(xr|Ci),并使用拉普拉斯算法进行平滑处理。具体实施流程如图4所示。
[0105] 遍历学生学习状况数据表,从中统计类别为Ci的学生的数量,输出Count(Ci)。
[0106] 遍历学生学习状况数据表,从中统计类别为Ci且第r个属性的属性值为xr的学生的数量,输出Count(xr|Ci)。
[0107] 遍历学生学习状况数据表,从中统计学生学业成绩类别的数量,输出数量值K。
[0108] 根据所得的Count(Ci)、所得的Count(xr|Ci)、所得的K,由公式(3)计算P(xr|Ci),并输出P(xr|Ci)。
[0109] 在本实施例中,根据表2,不同类别下各属性的概率参数P(xr|Ci)的计算结果如下:
[0110] 对于P(x1|C1),由Count(Ci=”A”)=4,由Count(R1=”4”|Ci=”A”)=1,由K=5,代入公式(3),可得:
[0111] P(x1|C1)=P(R1=”4”|Ci=”A”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0112] 同理可得,
[0113] P(x1|C2)=P(R1=”4”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0114] P(x1|C3)=P(R1=”4”|Ci=”C”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0115] P(x1|C3)=P(R1=”4”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0116] P(x1|C5)=P(R1=”4”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0117] P(x2|C1)=P(R2=”C”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0118] P(x2|C2)=P(R2=”C”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0119] P(x2|C3)=P(R2=”C”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0120] P(x2|C4)=P(R2=”C”|Ci=”D”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0121] P(x2|C5)=P(R2=”C”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0122] P(x3|C1)=P(R3=”2”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0123] P(x3|C2)=P(R3=”2”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0124] P(x3|C3)=P(R3=”2”|Ci=”C”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689[0125] P(x3|C4)=P(R3=”2”|Ci=”D”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0126] P(x3|C5)=P(R3=”2”|Ci=”E”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0127] P(x4|C1)=P(R4=”<2”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0128] P(x4|C2)=P(R4=”<2”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0129] P(x4|C3)=P(R4=”<2”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0130] P(x4|C4)=P(R4=”<2”|Ci=”D”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0131] P(x4|C5)=P(R4=”<2”|Ci=”E”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689[0132] P(x5|C1)=P(R5=”小说”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0133] P(x5|C2)=P(R5=”小说”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0134] P(x5|C3)=P(R5=”小说”|Ci=”C”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689[0135] P(x5|C4)=P(R5=”小说”|Ci=”D”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0136] P(x5|C5)=P(R5=”小说”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0137] P(x6|C1)=P(R6=”差”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0138] P(x6|C2)=P(R6=”差”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0139] P(x6|C3)=P(R6=”差”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0140] P(x6|C4)=P(R6=”差”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0141] P(x6|C5)=P(R6=”差”|Ci=”E”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689[0142] P(x7|C1)=P(R7=”一般”|Ci=”A”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0143] P(x7|C2)=P(R7=”一般”|Ci=”B”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689[0144] P(x7|C3)=P(R7=”一般”|Ci=”C”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0145] P(x7|C4)=P(R7=”一般”|Ci=”D”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0146] P(x7|C5)=P(R7=”一般”|Ci=”E”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689[0147] P(x8|C1)=P(R8=”较好”|Ci=”A”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0148] P(x8|C2)=P(R8=”较好”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0149] P(x8|C3)=P(R8=”较好”|Ci=”C”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0150] P(x8|C4)=P(R8=”较好”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0151] P(x8|C5)=P(R8=”较好”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0152] P(x9|C1)=P(R9=”一般”|Ci=”A”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0153] P(x9|C2)=P(R9=”一般”|Ci=”B”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0154] P(x9|C3)=P(R9=”一般”|Ci=”C”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689[0155] P(x9|C4)=P(R9=”一般”|Ci=”D”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0156] P(x9|C5)=P(R9=”一般”|Ci=”E”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0157] P(x10|C1)=P(R10=”较好”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0158] P(x10|C2)=P(R10=”较好”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0159] P(x10|C3)=P(R10=”较好”|Ci=”C”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0160] P(x10|C4)=P(R10=”较好”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0161] P(x10|C5)=P(R10=”较好”|Ci=”E”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0162] P(x11|C1)=P(R11=”有”|Ci=”A”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0163] P(x11|C2)=P(R11=”有”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0164] P(x11|C3)=P(R11=”有”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0165] P(x11|C4)=P(R11=”有”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0166] P(x11|C5)=P(R11=”有”|Ci=”E”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0167] P(x12|C1)=P(R12=”C”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0168] P(x12|C2)=P(R12=”C”|Ci=”B”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689[0169] P(x12|C3)=P(R12=”C”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0170] P(x12|C4)=P(R12=”C”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022[0171] P(x12|C5)=P(R12=”C”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0172] P(x13|C1)=P(R13=”B”|Ci=”A”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467[0173] P(x13|C2)=P(R13=”B”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0174] P(x13|C3)=P(R13=”B”|Ci=”C”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0175] P(x13|C4)=P(R13=”B”|Ci=”D”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0176] P(x13|C5)=P(R13=”B”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244[0177] 根据学生学习状况数据表,计算不同类别样本的概率参数P(Ci),并使用拉普拉斯算法进行平滑处理,具体实施流程如图4所示。
[0178] 遍历学生学习状况数据表,从中统计类别为Ci的学生的数量,输出Count(Ci)。
[0179] 遍历学生学习状况数据表,从中统计学生学业成绩类别的数量,输出数量值K。
[0180] 遍历学生学习状况数据表,从中统计学生的总数量,输出数量值N。
[0181] 根据所得的Count(Ci)、所得的K、所得的N,由公式(4)计算P(Ci),并输出P(Ci)。
[0182] 在本实施例中,根据表2,不同类别下各属性的P(Ci)的计算结果如下:
[0183] 对于P(C1),由Count(Ci=”A”)=4,由K=5,由N=20,代入公式(4)可得,P(C1)=P(Ci=”A”)=(4+0.1)/(20+5*0.1)=4.1/20.5=0.2
[0184] 同理,可得P(C2)、P(C3)、P(C4)、P(C5)均为0.2。
[0185] 步骤四、根据步骤三所获得的模型概率参数,利用朴素贝叶斯模型预测学生的学业成绩类别。
[0186] 由贝叶斯模型公式(1)可知,使P(X|Ci)P(Ci)取得最大值的类别Ci,即为学业成绩的预测结果。具体实施步骤如下所述。
[0187] 步骤4.1:根据步骤三所得的概率参数P(xr|Ci)、P(Ci),计算各个类别Ci的P(X|Ci)P(Ci)值。
[0188] 步骤4.1的具体实施流程如图5所示。
[0189] 首先对于学生样本X的每个属性xr,依次获得计算出的P(xr|Ci)值;而后,根据公式(2),将各个P(xr|Ci)相乘,得到P(X|Ci)值,并输出P(X|Ci)值。
[0190] 将计算而得的P(X|Ci)值与计算而得的P(Ci)值相乘,得到P(X|Ci)P(Ci)值,并输出P(X|Ci)P(Ci)值。
[0191] 在本实施例中,以学生X为例,说明本步骤的具体计算方法。
[0192] 对于类别C1,即“A”,P(X|C1)=P(x1|C1)×P(x2|C1)×……×P(x13|C1)=0.244×0.022×0.022×0.022×0.022×0.022×0.244×0.467×0.244×0.022×0.244×0.022×
0.467=1.9282E‑15;P(C1)=0.2;故P(X|C1)P(C1)=1.9282E‑15×0.2=3.8564E‑16。
[0193] 同理可得,
[0194] 对于类别C2,P(X|C2)P(C2)=[P(x1|C2)×P(x2|C2)×……×P(x13|C2)]×P(C2)[0195] =[0.244×0.022×0.244×0.022×0.022×0.022×0.689×0.244×0.467×0.022×0.244×0.689×0.244]×0.2
[0196] =1.97628E‑13
[0197] 对于类别C3,P(X|C3)P(C3)=[P(x1|C3)×P(x2|C3)×……×P(x13|C3)]×P(C3)[0198] =[0.467×0.022×0.689×0.022×0.689×0.022×0.467×0.467×0.689×0.244×0.022×0.022×0.244]×0.2
[0199] =2.04424E‑12
[0200] 对于类别C4,P(X|C4)P(C4)=[P(x1|C4)×P(x2|C4)×……×P(x13|C4)]×P(C4)[0201] =[0.022×0.244×0.467×0.244×0.467×0.022×0.244×0.022×0.467×0.022×0.022×0.022×0.244]×0.2
[0202] =8.18608E‑15
[0203] 对于类别C5,P(X|C5)P(C5)=[P(x1|C5)×P(x2|C5)×……×P(x13|C5)]×P(C5)[0204] =[0.244×0.244×0.022×0.689×0.244×0.689×0.689×0.244×0.467×0.022×0.022×0.244×0.244]×0.2
[0205] =6.86454E‑11
[0206] 步骤4.2:对比步骤4.1所获得的各个类别Ci所对应的P(X|Ci)P(Ci)值,将学生样本X的类别预测为具有最大P(X|Ci)P(Ci)值的Ci。
[0207] 在本实施例中,对比以上各类别的P(X|Ci)P(Ci)值,可知类别C5(“E”)的值最大。故学生样本X的当前学期的学业成绩将被预测为C5(“E”)。
[0208] 根据该学生样本的学业预测成绩,其学业成绩属于“E”类,即名次排名将在80%之后,显然应对该同学加强教育管理。辅导员可根据该预测结果,及时对该学生予以干预,对其批评教育,纠正其不良学习习惯,端正其学习态度,以避免该生的学业成绩出现严重问题。
[0209] 需要说明的是,本申请中的基于朴素贝叶斯模型的学生学业成绩预测方法及系统均是基于现有的计算机、服务器等硬件产品的基础上进行的,所得到的预测结果可以通过相应的显示单元进行显示。
[0210] 上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号