首页 > 专利 > 广西师范大学 > 一种基于BERT的深度神经网络模型的自动评卷方法专利详情

一种基于BERT的深度神经网络模型的自动评卷方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2021-09-23
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2022-02-01
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-11-04
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2041-09-23
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202111115698.8 申请日 2021-09-23
公开/公告号 CN113935459B 公开/公告日 2022-11-04
授权日 2022-11-04 预估到期日 2041-09-23
申请年 2021年 公开/公告年 2022年
缴费截止日 2023-10-23
分类号 G06N3/04G06N3/08G06F40/30G06Q50/20 主分类号 G06N3/04
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 0
权利要求数量 1 非专利引证数量 0
引用专利数量 0 被引证专利数量 0
非专利引证
引用专利 被引证专利
专利权维持 1 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 广西师范大学 当前专利权人 广西师范大学
发明人 朱新华、吴晗、张兰芳 第一发明人 朱新华
地址 广西壮族自治区桂林市七星区育才路15号 邮编 541004
申请人数量 1 发明人数量 3
申请人所在省 广西壮族自治区 申请人所在市 广西壮族自治区桂林市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
南宁东智知识产权代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
黎华艳
摘要
本发明公开了一种基于BERT的深度神经网络模型的自动评卷方法,在编码答案文本的微调BERT模型之上,构建一个语义细化层来细化BERT输出的语义,为BERT模型的隐藏状态提取相关的局部上下文。其次,引入一个多头注意力来融合从BERT输出中提取的全局上下文和局部上下文,作为学生答案和参考答案的句子对的最终表示。再者,本发明为简答题自动评卷提出了一种三重热点的策略,它将标准交叉熵损失函数中的计算标签从单独热点黄金分布改进为三重热点黄金分布。通过本发明实现端到端的简答题自动阅卷,以更有效的方法解决简答题自动评卷问题。
  • 摘要附图
    一种基于BERT的深度神经网络模型的自动评卷方法
  • 说明书附图:图1
    一种基于BERT的深度神经网络模型的自动评卷方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-11-04 授权
2 2022-02-01 实质审查的生效 IPC(主分类): G06N 3/04 专利申请号: 202111115698.8 申请日: 2021.09.23
3 2022-01-14 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于BERT的深度神经网络模型的自动评卷方法,其特征在于包括以下步骤:
S
1.BERT编码层:将输入序列s送入BERT编码层进行处理,所述BERT编码层以微调的方式运行,得到BERT编码层的输出OBERT,并把OBERT作为简答题评卷的初始编码;
S
2.语义细化层:使用Bi‑LSTM网络为BERT编码层的输出OBERT提取精细的全局上下文,使用Capsule网络为BERT编码层隐藏状态提取相关局部上下文,Bi‑LSTM网络和Capsule网络并行工作,得到输出 和OCaps;
S
3.语义融合层:通过语义融合层将语义细化层的三种输出语义 和OCaps整合在一起,得到简答题评卷的连接语义表示X;使用一个多头注意力共同关注X中不同位置(h)
的信息,得到简答题评卷的融合语义表示X ;
(h)
S
4.预测层:对简答题评卷的融合语义表示X 执行一个最大池化操作,得到简答题评卷的最终语义表示Z,将Z输入到一个线性变换层,进行评卷区间的预测概率计算,获得使预测概率为最大值的评卷区间;
S
5.将标准交叉熵损失函数中的计算标签改进为三重热点黄金分布,训练实现最小化Ω中所有训练学生答案的损失误差,Ω是自动简答题评卷任务中的训练学生答案的集合;
所述步骤S1具体包括:
S1.1 BERT编码层的输入序列s是由学生答案和参考答案的句子对所组成,如下所示:
其中,w[CLS]是BERT分类符[CLS]的编码, 是学生答案的字词编码序列,q是学生答案, 是参考答案的字词编码序列,p是主观题题目T的参考答案,w[SEP]是BERT分隔符[SEP]的编码,u是学生答案中字词的个数,v是参考答案中字词的个数,n是输入序列s的长度,且n=u+v+3,dw是BERT中字符编码的维度;所述字词是指文本经Bert的分词器Tokenzier分离出的语言片段;
S1.2将输入序列s送入BERT编码层进行处理,得到BERT编码层的输出OBERT,并把OBERT作为简答题评卷的初始编码,计算过程如下:
其中,BERT(·)表示BERT编码层, 是BERT编码层的第i个隐藏状态,db是BERT编码层的隐藏单元数;
所述步骤S2具体包括:
其中, 表示一个按从左到右时序处理OBERT的LSTM网络, 表示一
个按从右到左时序处理OBERT的LSTM网络, 表示 网络的输出, 表示
网络的输出,Capsules(OBERT)表示一个输入为OBERT的Capsule网络,OCaps表示Capsules(OBERT)网络的输出, 分别表示 和 网
络中第i个时间步的隐藏状态, 表示Capsule网络中卷积胶囊层的第i个输出向量,dL是LSTM网络中隐藏单元的数量,dc是Capsule网络中卷积核的数量;
对 和OCaps使用layer normalization进行层归一化处理,处理为‑1和1之间的不饱和值;
所述步骤S3中,语义融合层的具体处理步骤包括:
将层归一化处理后的 和OCaps连接在一起,得到简答题评卷的连接语义表示X,计算过程如下:
其中,d=2dL+dc,xi为输入序列s中第i个字词所对应的连接语义, 为输入序列s中第i个字词所对应的全局上下文表示, 为输入序列s中第i个字词所对应的局部上下文表示;
所述使用一个多头注意力共同关注X中不同位置的信息具体包括:
其中,MHA(X,X,X)表示输入Q=K=V=X的多头注意力MHA(Q,K,V),多头注意力MHA(Q,K,V)的计算过程如下:
R
MHA(Q,K,V)=tanh([head1;head2;...;headh]w) (11)
Q K V
headi=Attention(Qi,Ki,Vi)=Attention(Qw ,Kw ,Vw) (12)
其中, 是多头注意力的三个输入,headi表示多头注意力中的第i个头,tanh(·)表示双曲正切函数, 是可学
习的参数矩阵dK=dV=d÷h,h是多头注意力中头的数量;
所述步骤S4中,最大池化操作的具体步骤包括:
其中,zj是Z的第j个元素,计算过程如下:
(h)
其中,Max(·)表示求最大值的函数, 为X 的第i行第j列的元素,Z是给定简答题评卷的最终语义表示;
线性变换层的具体步骤包括:
Τ
o=MZ +b (16)
Τ
其中, 是评卷区间表示矩阵,Z 表示对Z进行转置, 是一个偏置向量,dy是评卷区间的个数,o是表示所有评卷区间置信分数的向量,oy表示标注为评卷区间y的样本的置信分数,oi表示样本在第i个评卷区间上的置信分数,pr(y|Z)表示给定简答题评卷的最终语义表示Z在评卷区间y上的预测概率,Y是所有评卷区间按从低分到高分排列的列*
表,y为最终评定的评卷区间, 表示返回使得pr(y|Z)为最大值的
评卷区间,exp(·)表示以自然常数e为底的指数函数,θ是所有可学习的参数集合;
所述步骤S5具体包括:
其中,Ω是自动简答题评卷任务中的训练学生答案的集合,yi是Ω中第i个训练学生答案的标注标签,Zi是Ω中第i个训练学生答案的简答题评卷的最终语义表示, 和 分别代表在所有评卷区间按从低分到高分排列的列表Y中yi的左、右相邻区间;
训练实现最小化Ω中所有训练学生答案的损失误差。
说明书

技术领域

[0001] 本发明涉及教育技术与计算机应用技术领域,尤其是一种基于BERT的深度神经网络模型的自动评卷方法,可广泛应用于各个领域的简答题计算机自动阅卷系统中。

背景技术

[0002] 考试试卷中的试题从答案组成的形式上,被普遍分为客观题与主观题两大类。答案以选项编号表示的单选题、多选题、判断题等试题被称为客观题,而答案采用自然语言表示的简答题、名词解释和论述题等试题被称为主观题。由于单选题、多选题、判断题等客观题目的答案都是以选项编号表示,目前计算机对于此类题型进行自动阅卷时,只需将标准答案的选项编号与学生答案的选项编号进行简单的匹配运算,匹配成功则答案正确,该处理技术已经取得较好的成果。但对于答案采用自然语言表示的主观题自动阅卷技术,如:对简答题、名词解释和论述题等自动评卷,由于其受到自然语言理解、模式识别等理论与技术瓶颈影响,效果不是很理想。
[0003] 主观题不同于客观题,不仅需要采用自然语言表示答案,而且具有一定的主观性,允许学生在一定的范围内答题,因此答案往往不是唯一的,而且学生答题的方式会有多种形式。另一方面,教师在批阅试卷的时候,还可能会受到主观因素的影响,以及学生字体是否美观、卷面是否整洁等的影响,使得教师在评卷时,出现不合理的加分或扣分现象,有失考试的公正性和公平性。主观题的计算机自动阅卷,既减轻了教师人工阅卷的劳动强度,又减少人为因素的影响,保证了阅卷的客观性、公正性,因此对主观题计算机自动阅卷技术的研究,具有重要的意义。然而,由于主观题学生答案的多样性与随意性,目前还没有使用计算机对主观题进行自动阅卷的成熟技术,并且普遍仅关注于答案文本较短的简答题。
[0004] 在传统的简答题计算机自动阅卷系统中,普遍采用关键字匹配技术进行主观题自动阅卷,即在答案中标注出若干关键字或关键词,将其与学生答案进行匹配,并根据匹配成功的多少对学生答案进行评卷,由于自然语言的多样性与随意性,这种方法的评卷准确率非常低。为提高评卷的准确率,出现了一些基于句法分析与语义分析的主观题自动阅卷方法,这类评卷方法虽然可以在评卷过程中融入语义分析,提高了评卷的准确率,但由于句法分析自身的准确率不高,以及语义分析无法处理句子的时序性,这极大地限制了这类系统的应用范围与实用性。
[0005] 随着人工神经网络技术的不断发展,许多深度学习模型如基于LSTM的模型、基于CNN&LSTM的模型和基于Transformer的模型被应用于简答题评卷。这些深度学习模型利用不同的神经网络从转换为词嵌入序列的答案文本中自动提取局部和全局语义信息,从而提供一种无需任何特征工程工作的端到端方法。然而,简答题自动评卷的深度学习方法仍然具有挑战性,主要有两个原因:首先,学生通常使用不同的自由文本来回答同一个问题,学生的答案在句子结构、语言风格和文本长度上可能存在显着差异。因此,有必要利用先进的学习技术在简答题自动评卷任务中结合不同的深度神经网络,以实现对学生答案更深入的语义理解;其次,简答题自动评卷的深度学习方法是一种全监督机器学习,需要为训练语料中的每个学生答案分配一个标签分数,如表1所示。自由表达的学生答案,简答题自动评卷的训练语料库通常很小。因此,如何在小语料库上训练出稳定有效的深度神经网络模型是简答题自动评卷深度学习方法面临的一大挑战。
[0006] 表1在Mohler数据集中的简答题语料
[0007]

发明内容

[0008] 本发明公开了一种基于BERT的深度神经网络模型的自动评卷方法,采用了基于BERT的自动简答题评卷深度神经网络模型,实现端到端的简答题自动阅卷,以更有效的方法解决简答题自动评卷问题。
[0009] 为实现上述目的,本发明的技术方案为:
[0010] 一种基于BERT的深度神经网络模型的自动评卷方法,包括以下步骤:
[0011] S1.BERT编码层:将输入序列s送入BERT编码层进行处理,所述BERT编码层以微调的方式运行,得到BERT编码层的输出OBERT,并把OBERT作为简答题评卷的初始编码;
[0012] S2.语义细化层:使用Bi‑LSTM网络为BERT编码层的输出OBERT提取精细的全局上下文,使用Capsule网络为BERT编码层隐藏状态提取相关局部上下文,Bi‑LSTM网络和Capsule网络并行工作,得到输出 和OCaps;
[0013] S3.语义融合层:通过语义融合层将语义细化层的三种输出语义 和OCaps整合在一起,得到简答题评卷的连接语义表示X;使用一个多头注意力共同关注X中不(h)同位置的信息,得到简答题评卷的融合语义表示X ;
[0014] S4.预测层:对简答题评卷的融合语义表示X(h)执行一个最大池化操作,得到简答题评卷的最终语义表示Z,将Z输入到一个线性变换层,进行评卷区间的预测概率计算,[0015] 获得使预测概率为最大值的评卷区间;
[0016] S5.将标准交叉熵损失函数中的计算标签改进为三重热点黄金分布,训练实现最小化Ω中所有训练学生答案的损失误差,Ω是自动简答题评卷任务中的训练学生答案的集合。
[0017] 进一步的,所述步骤S1具体包括:
[0018] S1.1 BERT编码层的输入序列s是由学生答案和参考答案的句子对所组成,如下所示:
[0019]
[0020] 其中,w[CLS]是BERT分类符[CLS]的编码,q是学生答案, 是参考答案的字词编码序列,p是主观题题目T的参考答案, 是参考答案的字词编码序列,w[SEP]是BERT分隔符[SEP]的编码,u是学生答案中字词的个数,v是参考答案中字词的个数,n是输入序列s的长度,且n=u+v+3,dw是BERT中字符编码的维度;所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段;
[0021] S1.2将输入序列s送入BERT编码层进行处理,得到BERT编码层的输出OBERT,并把OBERT作为简答题评卷的初始编码,计算过程如下:
[0022]
[0023] 其中,BERT(·)表示BERT编码层, 是BERT编码层的第i个隐藏状态,db是BERT编码层的隐藏单元数。
[0024] 进一步的,所述步骤S2具体包括:
[0025]
[0026]
[0027]
[0028] 其中, 表示一个按从左到右时序处理OBERT的LSTM网络, 表示一个按从右到左时序处理OBERT的LSTM网络, 表示 网络的输出, 表
示 网络的输出,Capsules(OBERT)表示一个输入为OBERT的Capsule网络,OCaps表示Capsules(OBERT)网络的输出, 分别表示 和 网络
中第i个时间步的隐藏状态, 表示Capsule网络中卷积胶囊层的第i个输出向量,dL是LSTM网络中隐藏单元的数量,dc是Capsule网络中卷积核的数量;
[0029] 对 和OCaps使用layer normalization进行层归一化处理,处理为‑1和1之间的不饱和值。
[0030] 所述步骤S3中,所述语义融合层的具体处理步骤包括:
[0031] 将层归一化处理后的 和OCaps连接在一起,得到简答题评卷的连接语义表示X,计算过程如下:
[0032]
[0033]
[0034]
[0035]
[0036] 其中,d=2dL+dc,xi为输入序列s中第i个字词所对应的连接语义, 为输入序列s中第i个字词所对应的全局上下文表示, 为输入序列s中第i个字词所对应的局部上下文表示。
[0037] 更进一步的,所述使用一个多头注意力共同关注X中不同位置的信息具体包括:
[0038]
[0039] 其中,MHA(X,X,X)表示输入Q=K=V=X的多头注意力MHA(Q,K,V),多头注意力MHA(Q,K,V)的计算过程如下:
[0040] MHA(Q,K,V)=tanh([head1;head2;...;headh]wR)   (11)
[0041] headi=Attention(Qi,Ki,Vi)=Attention(QwQ,KwK,VwV)   (12)[0042]
[0043] 其中, 是多头注意力的三个输入,headi表示多头注意力中的第i个头,tanh(·)表示双曲正切函数, 是可学习的参数矩阵dK=dV=d÷h,h是多头注意力中头的数量。
[0044] 进一步的,所述步骤S4中,最大池化操作的具体步骤包括:
[0045]
[0046] 其中,zj是Z的第j个元素,计算过程如下:
[0047](h)
[0048] 其中,Max(·)表示求最大值的函数, 为X 的第i行第j列的元素,Z是给定简答题评卷的最终语义表示。
[0049] 更进一步的,线性变换层的具体步骤包括:
[0050] o=MZΤ+b   (16)
[0051]
[0052]
[0053] 其中, 是评卷区间表示矩阵,ZΤ表示对Z进行转置, 是一个偏置向量,dy是评卷区间的个数,o是表示所有评卷区间置信分数的向量,oy表示标注为评卷区间y的样本的置信分数,oi表示样本在第i个评卷区间上的置信分数,pr(y|Z)表示给定简答题评卷的最终语义表示Z在评卷区间y上的预测概率,Y是所有评卷区间按从低分到高分排列*的列表,y为最终评定的评卷区间, 表示返回使得pr(y|Z)为最大值
的评卷区间,exp(·)表示以自然常数e为底的指数函数,θ是所有可学习的参数集合。
[0054] 进一步的,所述步骤S5具体包括:
[0055]
[0056] 其中,Ω是自动简答题评卷任务中的训练学生答案的集合,yi是Ω中第i个训练学生答案的标注标签,Zi是Ω中第i个训练学生答案的简答题评卷的最终语义表示, 和分别代表在所有评卷区间的列表Y中yi的左、右相邻区间;
[0057] 训练实现最小化Ω中所有训练学生答案的损失误差。
[0058] 为解决简答题自动评卷中深入理解答案语义与语料集过小之间的矛盾,本发明提出了一种基于BERT的自动简答题评卷深度神经网络模型,在编码答案文本的微调BERT模型之上,构建一个语义细化层来细化BERT输出的语义,包括使用一个Bi‑LSTM网络为BERT输出提取精细的全局上下文和一个带有位置信息的Capsule网络,为BERT模型的隐藏状态提取相关的局部上下文。其次,引入一个多头注意力来融合从BERT输出中提取的全局上下文和局部上下文,作为学生答案和参考答案的句子对的最终表示。再者,本发明为简答题自动评卷提出了一种三重热点的策略,它将标准交叉熵损失函数中的计算标签从单独热点黄金分布改进为三重热点黄金分布。最终,本发明将预训练的BERT模型在自动简答题评卷任务中的应用从微调方法扩展到与双向LSTM和胶囊网络的结合。
[0059] 本发明具有以下优点:
[0060] (1)通过一个被广泛预训练与任务微调的BERT模型,为答案文本动态编码,可有效克服简答题自动评卷语料集过小的问题,以及传统词嵌入在不同语境中一成不变的缺点;
[0061] (2)利用Bi‑LSTM网络中复杂的门结构为BERT输出提取精细的全局上下文,并在Capsule网络中使用卷积胶囊为BERT模型的隐藏状态提取相关的局部上下文,从而为BERT编码产生更为细腻的语义表示;
[0062] (3)利用一个多头注意力融合细腻的全局上下文和局部上下文,为简答题自动评卷生成强大的语义表示。
[0063] (4)通过本发明的方法,能有效地解决简答题自动评卷中深入理解答案语义与语料集过小之间的矛盾。

实施方案

[0065] 以下结合具体实施例对本发明作进一步说明,但本发明的保护范围不限于以下实施例。
[0066] 设主观题题目T的参考答案为p,评分区间集合为y,则本实施例对于学生答案q的自动评卷过程如下:
[0067] S1.BERT编码层:将输入序列s送入BERT编码层进行处理,所述BERT编码层以微调的方式运行,得到BERT编码层的输出OBERT,并把OBERT作为简答题评卷的初始编码;
[0068] S2.语义细化层:使用Bi‑LSTM网络为BERT编码层的输出OBERT提取精细的全局上下文,使用Capsule网络为BERT编码层隐藏状态提取相关局部上下文,Bi‑LSTM网络和Capsule网络并行工作,得到输出 和OCaps;
[0069] S3.语义融合层:通过语义融合层将语义细化层的三种输出语义 和OCaps整合在一起,得到简答题评卷的连接语义表示X;使用一个多头注意力共同关注X中不(h)同位置的信息,得到简答题评卷的融合语义表示X ;
[0070] S4.预测层:对简答题评卷的融合语义表示X(h)执行一个最大池化操作,得到简答题评卷的最终语义表示Z,将Z输入到一个线性变换层,进行评卷区间的预测概率计算,[0071] 获得使预测概率为最大值的评卷区间;
[0072] S5.将标准交叉熵损失函数中的计算标签改进为三重热点黄金分布,训练实现最小化Ω中所有训练学生答案的损失误差,Ω是自动简答题评卷任务中的训练学生答案的集合。
[0073] 进一步的,步骤S1具体包括:
[0074] S1.1本实施例的BERT编码层以微调的方式运行,所述微调的方式运行是指BERT编码层的所有参数均从预训练的BERT模型初始化,并且这些参数需要与系统模型中的其他层共同训练和微调,BERT是指Google AI Language在文献“Devlin J,Chang MW,Lee K,Toutanova K(2019)BERT:Pre‑training of Deep Bidirectional Transformers for Language Understanding.In:Proceedings of the 2019 Conference of NAACL,pp 4171–4186”中提出的BERT:Bidirectional Encoder Representations from Transformers语言模型。
[0075] BERT编码层的输入序列s是由学生答案和参考答案的句子对所组成,如下所示:
[0076]
[0077] 其中,w[CLS]是BERT分类符[CLS]的编码, 是学生答案的字词编码序列,q是学生答案, 是参考答案的字词编码序列,p是主观题题目T的参考答案,w[SEP]是BERT分隔符[SEP]的编码,u是学生答案中字词的个数,v是参考答案中字词的个数,n是输入序列s的长度,且n=u+v+3,dw是BERT中字符编码的维度;所述“字词”是指文本经Bert的分词器Tokenzier分离出的语言片段;
[0078] S1.2将输入序列s送入BERT编码层进行处理,得到BERT编码层的输出OBERT,并把OBERT作为简答题评卷的初始编码,计算过程如下:
[0079]
[0080] 其中,BERT(·)表示BERT编码层, 是BERT编码层的第i个隐藏状态,db是BERT编码层的隐藏单元数。
[0081] 进一步的,语义细化层由一个Bi‑LSTM网络和一个带有位置信息的Capsule网络组成,Bi‑LSTM网络是指文献“SeppHochreiter and Jürgen Schmidhuber.1997.Long short‑term memory.Neural computation,9(8):1735–1780.”所提出的双向长短时记忆Bidirectional Long Short‑Term Memory网络,所述Capsule网络是指文献“21.Zhao W,Ye J,Yang M,Lei Z,Zhang S,Zhao Z(2018)Investigating Capsule Networks with Dynamic Routing for Text Classification.In:Proceeding of the 2018 Conference on Empirial Methods in Natural Language Processing,pp 43‑48”所提出的Capsule胶囊网络。其中,使用Bi‑LSTM网络为BERT编码层的输出OBERT提取精细的全局上下文,使用Capsule网络为BERT编码层隐藏状态提取相关局部上下文,Bi‑LSTM网络和Capsule网络并行工作。
[0082] 步骤S2具体包括:
[0083]
[0084]
[0085]
[0086] 其中, 表示一个按从左到右时序处理OBERT的LSTM网络, 表示一个按从右到左时序处理OBERT的LSTM网络, 表示 网络的输出, 表
示 网络的输出,Capsules(OBERT)表示一个输入为OBERT的Capsule网络,OCaps表示Capsules(OBERT)网络的输出, 分别表示 和 网络
中第i个时间步的隐藏状态, 表示Capsule网络中卷积胶囊层的第i个输出向量,dL是LSTM网络中隐藏单元的数量,dc是Capsule网络中卷积核的数量;
[0087] 对 和OCaps使用layer normalization进行层归一化处理,处理为‑1和1之间的不饱和值。所述layer normalization是文献“Ba J L,Kiros J R,Hinton G E.Layer normalization.in:arXiv:1607.06450,2016.”所提出的层归一化layer normalization算法。
[0088] 语义融合层按如下步骤将语义细化层的三种输出语义 和OCaps整合在一起。步骤S3中,语义融合层的具体处理步骤包括:
[0089] 将层归一化处理后的 和OCaps连接在一起,得到简答题评卷的连接语义表示X,计算过程如下:
[0090]
[0091]
[0092]
[0093]
[0094] 其中,d=2dL+dc,xi为输入序列s中第i个字词所对应的连接语义, 为输入序列s中第i个字词所对应的全局上下文表示, 为输入序列s中第i个字词所对应的局部上下文表示。
[0095] 更进一步的,使用一个多头注意力共同关注X中不同位置的信息具体包括:
[0096]
[0097] 其中,MHA(X,X,X)表示输入Q=K=V=X的多头注意力MHA(Q,K,V),多头注意力MHA(Q,K,V)的计算过程如下:
[0098] MHA(Q,K,V)=tanh([head1;head2;...;headh]wR)   (11)
[0099] headi=Attention(Qi,Ki,Vi)=Attention(QwQ,KwK,VwV)   (12)[0100]
[0101] 其中, 是多头注意力的三个输入,headi表示多头注意力中的第i个头,tanh(·)表示双曲正切函数, 是可学习的参数矩阵dK=dV=d÷h,h是多头注意力中头的数量。
[0102] 进一步的,预测层先对融合语义表示X(h)执行最大池化操作,再输入到线性变换层,进行评卷区间的概率计算。
[0103] 步骤S4中,最大池化操作的具体步骤包括:
[0104]
[0105] 其中,zj是Z的第j个元素,计算过程如下:
[0106](h)
[0107] 其中,Max(·)表示求最大值的函数, 为X 的第i行第j列的元素,Z是给定简答题评卷的最终语义表示。
[0108] 更进一步的,线性变换层的具体步骤包括:
[0109] o=MZΤ+b   (16)
[0110]
[0111]
[0112] 其中, 是评卷区间表示矩阵,ZΤ表示对Z进行转置, 是一个偏置向量,dy是评卷区间的个数,o是表示所有评卷区间置信分数的向量,oy表示标注为评卷区间y的样本的置信分数,oi表示样本在第i个评卷区间上的置信分数,Pr(y|Z)表示给定简答题评卷的最终语义表示Z在评卷区间y上的预测概率,Y是所有评卷区间按从低分到高分排列*的列表,y为最终评定的评卷区间, 表示返回使得Pr(y|Z)为最大值
的评卷区间,exp(·)表示以自然常数e为底的指数函数,θ是所有可学习的参数集合。
[0113] 进一步的,步骤S5具体包括:
[0114]
[0115] 其中,Ω是自动简答题评卷任务中的训练学生答案的集合,yi是Ω中第i个训练学生答案的标注标签,Zi是Ω中第i个训练学生答案的简答题评卷的最终语义表示, 和分别代表在所有评卷区间按从低分到高分排列的列表Y中yi的左、右相邻区间;
[0116] 训练实现最小化Ω中所有训练学生答案的损失误差。
[0117] 本实施例将预训练的BERT模型在自动简答题评卷任务中的应用从微调方法扩展到与双向LSTM和胶囊网络的结合。
[0118] 应用实例
[0119] 1.实例环境
[0120] 本实例使用Google AI Language开发的BERT‑BASE版本作为BERT编码层的预训练模型,该BERT模型包括12层Transformers,768个隐藏单元,12个多头,以及总参数=110M);本实例将每个LSTM网络中隐藏单元的数量设置为200,并返回所有时间步中的隐藏状态;本实例将Capsule网络中的卷积核数设置为400,每个卷积核的大小为3,Capsule网络中的动态路由数为3;在多头注意力中,设置了注意力的头数为2,每个头分配400维的参数;本实例在Bi‑LSTM网络、Capsule网络和预测层中将dropout rate设置为0.1;为了最小化损失值,本实例使用了Adam Optimizer优化器,并将学习率设置为2e‑5,batch size大小设置为64;
在训练期间,本实例将epochs从5增加到10。
[0121] 2.数据集
[0122] 本实例使用在国际上广泛使用的Mohler数据集作为评测基准,该数据集由美国北德克萨斯大学Mohler等人创建,是一个关于计算机科学的简答题数据集。它包含80个问题和2,273个学生答案,每个学生的答案由两位老师按0到5的整数打分。本实例取两个标记分数的平均值作为学生答案的真实分数,得到11个评卷区间,从0到5,间隔为0.5。
[0123] Mohler数据集仅包含2273个学生答案与参考答案对,这对于深度学习模型来说太少了。为了扩展数据集,本实例从每道题中选择一个正确的学生答案作为补充参考答案,将训练集从2083对扩展到大约3300对。本实例采用12折交叉验证法进行模型的评估,并报告预测分数与真实分数之间的Pearson相关系数(Pearson's r)、平均绝对误差(MAE)和均方根误差(RMSE)。
[0124] 3.对比方法
[0125] 本实例将本发明的模型与6种消融模型与11种同类方法进行比较,对比方法如下所示:
[0126] (1)消融模型
[0127] 消融模型是本发明模型的简化版,它去除了本发明模型的某种功能,用于检测被去除的功能在本发明模型中的作用,本实例为本发明的模型设计了如下6种消融模型:
[0128] ·w/o refinement:意味着语义细化层从本发明的模型中移除,模型退化为微调的BERT‑BASE。
[0129] ·w/o multi‑head:意味着语义融合层中的多头自注意力从本发明的模型中移除。
[0130] ·w/o Bi‑LSTM with BERT:意味着语义细化层中的Bi‑LSTM网络从本发明的模型中移除,其输出被BERT编码层的输出替换。
[0131] ·w/o Capsule with BERT:意味着语义细化层中的Capsule网络从本发明的模型中移除,其输出被BERT编码层的输出替换。
[0132] ·w/o Capsule with CNN:意味着语义细化层中的Capsule网络从本发明的模型中移除,并替换为CNN网络。
[0133] ·w/o triple‑hot loss:意味着三重热点损失函数从本发明的模型中删除,并由标准的单独热点损失函数代替。
[0134] (2)同类方法
[0135] ·LSTM‑EMD[1]:一种深度学习方法,它使用基于推土机距离(earth‑mover distance)的池化层将Bi‑LSTM框架用于简答题自动评卷。本实例还引用了它报告的三个模型结果:仅使用最后一个隐藏状态的LSTM‑Last、使用最大池化的LSTM‑Max和使用平均池化的LSTM‑Avg。
[0136] ·基于特征的预训练模型[2]:使用各种预训练的迁移学习模型,例如ELMo[3]、GPT[4]、BERT[5]和GPT‑2[6],为简答题自动评卷抽取句子嵌入。
[0137] ·Bi‑LSTM+Capsule(CNN):为了与传统深度学习的评卷效果进行比较,本实例在本发明的模型中使用Glove[7]词嵌入代替BERT编码层,形成一个基于词嵌入、与本发明的总体结构相同的深度学习模型。
[0138] ·微调的BERT‑BASE:为了与BERT模型的评卷效果进行比较,本实例只在预训练的BERT‑BASE之上增加了一个分类层来进行简答题自动评卷,并联合对分类层和所有预训练参数进行了微调。
[0139] 其中,上述关联的文献分别为:
[0140] 1.Kumar S,Chakrabarti S,Roy S(2017)Earth movers distance pooling over Siamese lstms for automatic short answer grading.In:Proceedings of the International Joint Conference on Artificial Intelligence,pp 2046–2052[0141] 2.Gaddipati SK,Nair D,Plger PG(2020)Comparative Evaluation of Pretrained Transfer Learning Models on Automatic Short Answer Grading.In:arXiv:2009.01303v1
[0142] 3.Peters ME,Neumann M,Iyyer M,Gardner M,Clark C,Lee K,Zettlemoyer L(2018)Deep contextualized word representations.In:NAACL,pp 2227–2237.[0143] 4.Radford A,Narasimhan K,Salimans T,Sutskever I(2018)Improving language understanding by generative pre‑training.In:OpenAI Blog[0144] 5.Devlin J,Chang MW,Lee K,Toutanova K(2019)BERT:Pre‑training of Deep Bidirectional Transformers for Language Understanding.In:Proceedings of the 2019 Conference of NAACL,pp 4171‑4186
[0145] 6.Radford A,Wu J,Child R,Luan D,Amodei D,Sutskever I(2019)Language models are unsupervised multitask learners.In:OpenAI Blog,1(8):9[0146] 7.https://github.com/maciejkula/glove‑python
[0147] 4.实例对比结果
[0148] 表2与消融模型的对比结果(平均绝对误差(MAE)和均方根误差(RMSE)越低越好;Pearson相关系数(Pearson r)越高越好)
[0149]
[0150] 在表2中,w/o refinement的消融结果表明,本实施例的语义细化层显着提高了BERT模型在简答题评卷任务中的分级精度。Mohler数据集上的测试题和训练题来自同一个领域。因此,这个消融结果意味着本发明的语义细化层可以显着提高BERT模型对领域特征的泛化能力。w/o Bi‑LSTM with BERT的消融结果表明,直接用BERT的输出替换Bi‑LSTM后,模型在简答题评卷任务中的分级精度出现下降。这意味着Bi‑LSTM网络中的复杂门结构可以从BERT模型的输出中提取更精细的上下文信息。w/o Capsule with BERT的消融结果表明,直接用BERT的输出替换Capsule网络后,模型在简答题评卷任务中的分级精度有明显下降。这意味着Capsule网络可以从BERT模型的输出中提取更精细的局部信息。w/o Capsule with CNN的消融结果表明,在基于BERT的深度神经网络中,带有位置信息的Capsule网络的性能优于普通CNN网络。w/o multi‑head的消融结果表明,语义融合层中的多头注意力机制对提高模型性能起到了重要作用。此外,w/o triple‑hot loss的消融结果表明,所提出的三重热点损失策略将我们模型在Mohler数据集上的Pearson r从0.837显着提高到0.897。
[0151] 表3与同类方法的对比结果(平均绝对误差(MAE)和均方根误差(RMSE)越低越好;Pearson相关系数(Pearson r)越高越好;*表示模型为本实例实现)
[0152]
[0153] 表3的实验结果表明,本发明提出的基于BERT的自动简答题评卷深度神经网络模型,实现了0.897、0.827和0.248的最佳Pearson r、RMSE和MAE结果,显然超过了所有同类方法的结果,这充分说明了本发明方法是可行和优秀的。同时,表3的实验结果表明通过添加语义细化层,本发明的模型在简答题评卷任务中将微调BERT模型的Pearson's r从0.801显着提高到0.897,这表明本发明的语义细化层可以显着提高BERT模型泛化领域特征的能力。

附图说明

[0064] 图1是本发明的方法流程示意图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号