首页 > 专利 > 杭州电子科技大学 > 基于两阶段学习模型的网络攻击检测系统及方法专利详情

基于两阶段学习模型的网络攻击检测系统及方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2021-08-16

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-12-21

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-05-10

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2041-08-16

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202110938301.9	申请日	2021-08-16
公开/公告号	CN113746813B	公开/公告日	2022-05-10
授权日	2022-05-10	预估到期日	2041-08-16
申请年	2021年	公开/公告年	2022年
缴费截止日
分类号	H04L9/40 、G06N3/08 、G06N3/04 、G06K9/62	主分类号	H04L9/40
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	3
权利要求数量	4	非专利引证数量	0
引用专利数量	0	被引证专利数量	0
非专利引证
引用专利		被引证专利
专利权维持	1	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	滕旭阳、张云啸、何美霖、毕美华、仇兆炀	第一发明人	滕旭阳
地址	浙江省杭州市杭州经济技术开发区白杨街道2号大街1158号	邮编	310018
申请人数量	1	发明人数量	5
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

浙江千克知识产权代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

周希良

摘要

本发明公开了一种基于两阶段学习模型的网络攻击检测系统及方法，本发明方法按如下步骤进行：步骤1：将网络数据集的特征子集被作为不可分单元进行特征组合的评估，实现网络数据集的特征维度约简；步骤2：将缩减后的网络数据集作为训练数据利用深度学习技术实现网络攻击实时检测模型。本发明两阶段网络攻击检测技术方案，充分考虑了网络高危数据的特征组合效应，针对网络攻击检测需要保证的精确性和时效性，使用特征选择技术、进化搜索技术和深度学习模型结合，以提升网络攻击检测的识别精度并大夫缩减模型训练时间。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-05-10	授权
2	2021-12-21	实质审查的生效	IPC(主分类): H04L 29/06 专利申请号: 202110938301.9 申请日: 2021.08.16
3	2021-12-03	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于两阶段学习模型的网络攻击检测方法，其特征是按如下步骤进行：
步骤1：将网络数据集的特征子集作为不可分单元进行特征组合的评估，实现网络数据集的特征维度约简；
步骤2：将缩减后的网络数据集作为训练数据利用深度学习技术实现深度网络攻击检测模型；
步骤1具体如下：
步骤1.1，海量网络数据的预处理；首先对于超过特征缺失阈值限定的数据实例进行剔除初筛，进而在初筛后的网络数据集中将低信息量的特征予以删除，最后对网络数据集内非数值类型的特征进行one‑hot编码映射为二进制向量；
步骤1.2，构建网络数据集的特征子集评估函数；基于网络数据特征和网络攻击类别的互信息构建一个可度量的多元网络入侵检测分析模型F；
其中，具有n维特征的网络数据样本的具体数据并不作为输入，而是计算每一维网络数据特征与每一类网络攻击类别的互信息Iij作为输入，I(fi，Cj)＝H(fi)+H(Cj)‑H(fi，Cj)表示第i维网络数据特征与第j个网络攻击类别的互信息，其中H(fi，Cj)＝‑∑p((fi，Cj))log2pT
((fi，Cj))；将矩阵F中心化并标准化以后，由R＝P P计算得到关联矩阵Rel；再由和计算得到关联信息熵HRel和引入平均互信息表示
平均有用信息大小，基于最大HRel和加权得到最后的评估函数
k1和k2是用于控制关联信息熵与平均互信息对所选特征影响
大小的非负常数；
步骤1.3，使用二元粒子群进化搜索策略确定网络数据集的特征子集；粒子h是一串0与
1组成的bit串，是n维特征的映射，当对应bit为1时则代表该维特征被选择；二元粒子群算法中，每一粒子在网络数据集的特征子集的解空间中移动，记录自身最优解Pbest和群体最优解Gbest来更新自身位置；自身最优解是指个体搜索到的，包括曾经搜索到的适应度值最优的位置，而群体最优解是指整个粒子群内所有粒子经历过的位置里计算适应度为最优的位置；粒子的更新如下：
其中，c1和c2为学习因子，ω为惯性因子，表示第h个粒子第t代的速度，表示第h个粒子第t代的位置；二元粒子群算法通过Sigmoid函数将连续速度值转为0或1的二进制向量，因此粒子的位置也由0或1的二进制向量表示；重复上述更新自身最优解Pbest和群体最优解Gbest_的过程，对二元粒子群进化搜索进行进化代数和最优收敛的限制，直到最终的网络数据集的特征子集确定。

2.如权利要求1所述基于两阶段学习模型的网络攻击检测方法，其特征是：步骤2具体如下：
步骤2.1，深度网络攻击检测模型的训练；步骤1结束后得到网络数据最佳特征子集，将网络数据最佳特征子集作为步骤2深度学习网络模型的输入；输入网络数据集的特征子集数据由输入层X输入，经过隐藏层H计算，最后由输出层Y输出；通过预训练使同一特征向量在不同的特征空间中映射时能更多地保留特征信息；通过微调对整体以监督的方式训练得到一个分类器；深度学习网络模型输出层激活函数设置为线性函数，隐藏层神经元激活函数设置为Sigmoid函数；神经元层数及每层数目则根据网络数据集的特征子集数据规模进行具体设置；
步骤2.2，深度网络攻击检测模型的实时检测；检测模型首先收集网络数据，根据特征预处理和网络数据最佳特征子集将网络数据缩减，将该数据输入已经训练好的深度学习网络模型，模型得出网络攻击类型或当前无攻击；
步骤2.3，离线模型优化；根据网络攻击检测的实时监测数据进行人工复核，当检测错误实例超过限定阈值Δ时，则将错误实例进行人工纠错标记，将所有网络增量数据和原有网络数据融合重新进入步骤1和步骤2进行深度网络攻击检测模型的离线优化。

3.一种基于两阶段学习模型的网络攻击检测系统，其特征是包含如下模块：
网络数据集的特征维度约简模块：将网络数据集的特征子集作为不可分单元进行特征组合的评估，实现网络数据集的特征维度约简；
深度模型网络攻击检测模块：将网络数据集的特征维度约简模块缩减后的网络数据集作为训练数据利用深度学习技术实现深度网络攻击检测模型；
网络数据集的特征维度约简模块具体包括如下子模块：
海量网络数据的预处理模块：海量网络数据的预处理；首先对于超过特征缺失阈值限定的数据实例进行剔除初筛，进而在初筛后的网络数据集中将低信息量的特征予以删除，最后对网络数据集内非数值类型的特征进行one‑hot编码映射为二进制向量；
网络数据集的特征子集评估函数构建模块：构建网络数据集的特征子集评估函数；基于网络数据特征和网络攻击类别的互信息构建一个可度量的多元网络入侵检测分析模型F；
其中，具有n维特征的网络数据样本的具体数据并不作为输入，而是计算每一维网络数据特征与每一类网络攻击类别的互信息Iij作为输入，I(fi，Cj)＝H(fi)+H(Cj)‑H(fi，Cj)表示第i维网络数据特征与第j个网络攻击类别的互信息，其中H(fi，Cj)＝‑∑p((fi，Cj))log2pT
((fi，Cj))；将矩阵F中心化并标准化以后，由R＝P P计算得到关联矩阵Rel；再由和计算得到关联信息熵HRel和引入平均互信息表示
平均有用信息大小，基于最大HRel和加权得到最后的评估函数
k1和k2是用于控制关联信息熵与平均互信息对所选特征影响
大小的非负常数；
使用二元粒子群进化搜索策略确定网络数据集的特征子集模块：使用二元粒子群进化搜索策略确定网络数据集的特征子集；粒子h是一串0与1组成的bit串，是n维特征的映射，当对应bit为1时则代表该维特征被选择；二元粒子群算法中，每一粒子在网络数据集的特征子集的解空间中移动，记录自身最优解Pbest和群体最优解Gbest来更新自身位置；自身最优解是指个体搜索到的，包括曾经搜索到的适应度值最优的位置，而群体最优解是指整个粒子群内所有粒子经历过的位置里计算适应度为最优的位置；粒子的更新如下：
其中，c1和c2
为学习因子，ω为惯性因子，表示第h个粒子第t代的速度，表示第h个粒子第t代的位置；二元粒子群算法通过Sigmoid函数将连续速度值转为0或1的二进制向量，因此粒子的位置也由0或1的二进制向量表示；重复上述更新自身最优解Pbest和群体最优解Gbest_的过程，对二元粒子群进化搜索进行进化代数和最优收敛的限制，直到最终的网络数据集的特征子集确定。

4.如权利要求3所述基于两阶段学习模型的网络攻击检测系统，其特征是：深度模型网络攻击检测模块具体包括如下子模块：
深度网络攻击检测模型的训练模块：深度网络攻击检测模型的训练；网络数据集的特征维度约简模块实现缩减结束后得到网络数据最佳特征子集，将网络数据最佳特征子集作为深度学习网络模型的输入；输入网络数据集的特征子集数据由输入层X输入，经过隐藏层H计算，最后由输出层Y输出；通过预训练使同一特征向量在不同的特征空间中映射时能更多地保留特征信息；通过微调对整体以监督的方式训练得到一个分类器；深度学习网络模型输出层激活函数设置为线性函数，隐藏层神经元激活函数设置为Sigmoid函数；神经元层数及每层数目则根据网络数据集的特征子集数据规模进行具体设置；
深度网络攻击检测模型的实时检测模块：深度网络攻击检测模型的实时检测；检测模型首先收集网络数据，根据特征预处理和网络数据最佳特征子集将网络数据缩减，将该数据输入已经训练好的深度学习网络模型，模型得出网络攻击类型或当前无攻击；
离线模型优化模块：离线模型优化；根据网络攻击检测的实时监测数据进行人工复核，当检测错误实例超过限定阈值Δ时，则将错误实例进行人工纠错标记，将所有网络增量数据和原有网络数据融合重新进入网络数据集的特征维度约简模块和深度模型网络攻击检测模块进行深度网络攻击检测模型的离线优化。

说明书

技术领域

[0001] 本发明属于网络攻击检测技术领域，特别是涉及一种网络攻击数据预处理和网络攻击数据识别的两阶段检测系统及方法。

背景技术

[0002] 万物互联的时代背景下如何有效地实现网络攻击检测是大数据环境中面临的关键问题之一，近年来各种基于深度神经网络的识别方法被广泛应用到网络攻击检测系统中。相较于传统的机器学习方法，深度神经网络模型往往能取得更高的检测精度。而影响各类网络攻击检测模型的最关键因素就是对于高维度网络攻击的数据特征使用，因此从大规模高维度网络攻击数据中提取价值信息的首要基础任务是找到网络攻击数据的关键特征。

[0003] 伴随着网络领域数据规模的不断扩大，存在于网络之中的大规模数据中也会随之产生大量的冗余、无用和噪音数据，这些数据严重影响了检测学习算法对网络攻击检测的性能和速度。数据规模过于庞大仅是分析网络攻击的难题之一，当面对高维数据时，即使数据体积规模较小也会面临数据的“维度灾难”问题。并且大量的数据特征严重影响网络攻击检测方法的识别效率，使得检测模型的结构变得复杂。虽然深度学习技术的出现使得网络攻击检测的识别精度达到一个较高水准，但是由于深度学习模型相较于传统的机器学习网络攻击检测模型更为复杂，因此识别的效率则会有所降低。

[0004] 需要将高维度的网络数据进行维度缩减，并基于缩减后的网络数据特征子集构建网络攻击高效的实时检测方法。在特征维度约简的过程中，不同的评价方式都具有相应的优势，基于距离评价使得计算较快，基于信息论的方法抗噪声数据集的能力强，基于一致性评价对于数据的可解释性友好等，但普遍缺少将网络特征攻击数据的特征子集作为单元进行整体度量。同时，现有的网络攻击检测深度学习模型，往往认为学习模型能力强大，未进行特征预处理工作，因此导致模型训练时间过长，同时增加了网络攻击检测模型和系统的部署难度。

[0005] 2016年，本申请的发明人曾在《计算机研究与发展》上发表了《一种基于关联信息熵度量的特征选择方法》，其采用关联信息熵进行特征集合的搜索，充分考虑了特征子集中不同特征间的多变量关系，可将特征子集作为独立元素进行整体评估。通据多类公测数据集结合传统机器学习分类模型的验证，训练时间和分类精度都有很好的提升。但是，该方法并未结合深度学习模型进行性能分析，进而如何形成面向超高维网络数据的网络攻击检测是一个亟待解决的问题。

发明内容

[0006] 针对现有技术存在的上述问题，本发明提供一种基于两阶段学习模型网络攻击检测系统及方法，以验证基于组合效应的特征选择技术结合深度学习模型在网络攻击检测中的性能优势。本发明在第一阶段将网络数据集的特征子集被作为不可分单元进行特征组合的评估，实现网络数据集的特征维度约简；在第二阶段将缩减后的网络数据集作为训练数据利用深度学习技术实现网络攻击实时检测模型，形成网络数据的低阶特征组合效应评价和高阶深度特征组合抽取相结合的完整通用检测技术方案。

[0007] 基于此，本发明采用如下技术方案：

[0008] 一种基于两阶段学习模型的网络攻击检测方法，按如下步骤进行：

[0009] 阶段1：网络数据集的特征维度约简；本阶段将网络数据集的特征子集被作为不可分单元进行特征组合的评估，实现网络数据集的特征维度约简；具体如下：

[0010] 步骤1.1，海量网络数据的预处理。首先对于超过特征缺失阈值限定的数据实例进行剔除初筛；进而在初筛后的网络数据集中将低信息量的特征予以删除，如序号、时间戳等；最后对网络数据集内非数值类型的特征进行one‑hot编码映射为二进制向量；

[0011] 步骤1.2，构建网络数据集的特征子集评估函数。基于网络数据特征和网络攻击类别的互信息(Mutual Information，MI)构建一个可度量的多元网络入侵检测分析模型F。

[0012]

[0013] 其中，具有n维特征的网络数据样本的具体数据并不作为输入，而是计算每一维网络数据特征与每一类网络攻击类别的互信息Iij作为输入，I(fi，Cj)＝H(fi)+H(Cj)‑H(fi，Cj)，表示第i维特征与第j个类别的互信息，其中H为变量的信息熵，H(fi，Cj)＝‑∑p((fi，TCj))log2p((fi，Cj))。将矩阵F中心化并标准化以后，由R＝PP计算得到关联矩阵Rel。再由特征值λ计算和从而得到关联信息熵HRel和为避免仅使用
关联信息熵导致系统倾向于选择本身信息量小的特征，即当系统本身不含有信息时自然也不含冗余信息，同时引入平均互信息表示系统内的平均有用信息大小，
基于最大HRel和加权可得到最后的评估函数
k1和k2是用于控制关联信息熵与平均互信息对所选特征影响大小的非负常数。

[0014] 步骤1.3，使用二元粒子群(Binary Particle swarm optimization，BPSO)进化搜索策略确定特征子集。粒子h是一串0与1组成的bit串，它是n维特征的映射，当对应bit为1时则代表该维特征被选择。二元粒子群算法中，每一粒子在特征子集的解空间中移动，记录自身最优解(Pbest)和群体最优解(Gbest)来更新自身位置。Pbest是指个体搜索到的，包括曾经搜索到的适应度值最优的位置，而Gbest是指整个粒子群内所有粒子经历过的位置里计算适应度为最优的位置。粒子的更新如下：其中，c1和c2为学习因子，ω为惯性因子，表示第h个粒子第t代的
速度，表示第h个粒子第t代的位置。BPSO算法通过Sigmoid函数将连续速度值转为0或1的二进制向量，因此粒子的位置也由0或1的二进制向量表示。重复上述过程，对BPSO进化搜索进行进化代数和最优收敛的限制，直到最终的网络数据特征子集确定。

[0015] 阶段2：基于网络数据特征子集的深度模型网络攻击检测；将缩减后的网络数据集作为训练数据利用深度学习技术实现网络攻击实时检测模型；具体如下：

[0016] 步骤2.1，深度网络攻击检测模型的训练。第一阶段结束后得到网络数据最佳特征子集，将最佳子集作为第二阶段深度学习模型的输入。本发明采用深度置信网络(Deep Belief Networks，DBN)。输入的网络特征子集数据由输入层X输入，经过隐藏层H计算，最后由输出层Y输出。通过预训练(pre‑training)使同一特征向量在不同的特征空间中映射时能更多地保留特征信息；通过微调(fine‑tuning)对整体以监督的方式训练得到一个分类器。深度学习模型输出层激活函数设置为线性函数，隐藏层神经元激活函数设置为Sigmoid函数。神经元层数及每层数目则根据网络特征子集数据规模进行具体设置，本发明为保证测试的时效性，设置为7层网络，神经元个数为[50,40,35,30,26,22,22]。

[0017] 步骤2.2，深度网络攻击检测模型的实时检测。检测模型系统首先收集网络数据，根据特征预处理和最优特征子集将网络数据缩减，将该数据输入已经训练好的深度学习网络模型，模型得出网络攻击类型或当前无攻击。

[0018] 步骤2.3，离线系统模型优化。根据网络攻击检测的实时监测数据进行人工复核，当检测错误实例超过限定阈值Δ时，则将错误实例进行人工纠错标记，将所有网络增量数据和原有网络数据融合重新进入第一阶段和第二阶段进行网络攻击检测系统模型的离线优化。

[0019] 本发明还公开了一种基于两阶段学习模型的网络攻击检测系统，包括如下模块：

[0020] 网络数据集的特征维度约简模块：本模块将网络数据集的特征子集被作为不可分单元进行特征组合的评估，实现网络数据集的特征维度约简；具体包括如下子模块：

[0021] 海量网络数据的预处理模块：海量网络数据的预处理。首先对于超过特征缺失阈值限定的数据实例进行剔除初筛；进而在初筛后的网络数据集中将低信息量的特征予以删除，如序号、时间戳等；最后对网络数据集内非数值类型的特征进行one‑hot编码映射为二进制向量；

[0022] 网络数据集的特征子集评估函数构建模块：构建网络数据集的特征子集评估函数。基于网络数据特征和网络攻击类别的互信息(Mutual Information，MI)构建一个可度量的多元网络入侵检测分析模型F。

[0023]

[0024] 其中，具有n维特征的网络数据样本的具体数据并不作为输入，而是计算每一维网络数据特征与每一类网络攻击类别的互信息Iij作为输入，I(fi，Cj)＝H(fi)+H(Cj)‑H(fi，Cj)，表示第i维特征与第j个类别的互信息，其中H(fi，Cj)＝‑∑p((fi，Cj))log2p((fi，Cj))。T
将矩阵F中心化并标准化以后，由R＝PP计算得到关联矩阵Rel。再由和
计算得到关联信息熵HRel和为避免仅使用关联信息熵导致系统倾向于选
择本身信息量小的特征，即当系统本身不含有信息的时候自然也不含冗余信息，同时引入平均互信息表示系统内的平均有用信息大小，基于最大HRel和加权
可得到最后的评估函数 k1和k2是用于控制关联信息熵与平均
互信息对所选特征影响大小的非负常数。

[0025] 使用二元粒子群进化搜索策略确定特征子集模块：使用二元粒子群(Binary Particle swarm optimization，BPSO)进化搜索策略确定特征子集。粒子h是一串0与1组成的bit串，它是n维特征的映射，当对应bit为1时则代表该维特征被选择。二元粒子群算法中，每一粒子在特征子集的解空间中移动，记录自身最优解(Pbest)和群体最优解(Gbest)来更新自身位置。Pbest是指个体搜索到的，包括曾经搜索到的适应度值最优的位置，而Gbest是指整个粒子群内所有粒子经历过的位置里计算适应度为最优的位置。粒子的更新如下： BPSO算法通过Sigmoid函数将连续速度值转为0或1的二进制向量，因此粒子的位置也由0或1的二进制向量表示。重复上述过程，对BPSO进化搜索进行进化代数和最优收敛的限制，直到最终的网络数据特征子集确定。

[0026] 深度模型网络攻击检测模块：基于网络数据特征子集的深度模型网络攻击检测；将缩减后的网络数据集作为训练数据利用深度学习技术实现网络攻击实时检测模型；具体包括如下子模块：

[0027] 深度网络攻击检测模型的训练模块：深度网络攻击检测模型的训练。网络数据集的特征维度约简模块结束后得到网络数据最佳特征子集，将最佳子集作为深度模型网络攻击检测模块深度学习模型的输入。本发明采用深度置信网络(Deep Belief Networks，DBN)。输入的网络特征子集数据由输入层X输入，经过隐藏层H计算，最后由输出层Y输出。通过预训练(pre‑training)使同一特征向量在不同的特征空间中映射时能更多地保留特征信息；通过微调(fine‑tuning)对整体以监督的方式训练得到一个分类器。深度学习模型输出层激活函数设置为线性函数，隐藏层神经元激活函数设置为Sigmoid函数。神经元层数及每层数目则根据网络特征子集数据规模进行具体设置，本发明为保证测试的时效性，设置为7层网络，神经元个数为[50,40,35,30,26,22,22]。

[0028] 深度网络攻击检测模型的实时检测模块：深度网络攻击检测模型的实时检测。检测模型系统首先收集网络数据，根据特征预处理和最优特征子集将网络数据缩减，将该数据输入已经训练好的深度学习网络模型，模型得出网络攻击类型或当前无攻击。

[0029] 离线模型优化模块：离线系统模型优化。根据网络攻击检测的实时监测数据进行人工复核，当检测错误实例超过限定阈值Δ时，则将错误实例进行人工纠错标记，将所有网络增量数据和原有网络数据融合重新进入网络数据集的特征维度约简模块和深度模型网络攻击检测模块进行网络攻击检测系统模型的离线优化。

[0030] 本发明两阶段网络攻击检测系统，充分考虑了网络高危数据的特征组合效应，针对网络攻击检测需要保证的精确性和时效性，使用特征选择技术、进化搜索技术和深度学习模型结合，以提升网络攻击检测的识别精度并大夫缩减模型训练时间。

[0031] 与现有技术相比，本发明具有如下有益效果：

[0032] 1、本发明引入关联信息熵考虑了网络特征与攻击类别的相关性，包括了线性相关性和非线性相关性；在多基底高维空间中，本发明大大减少了网络攻击检测多变量模型的体积。

[0033] 2、为了避免仅使用关联信息熵导致系统倾向于选择本身信息量小的特征，当系统本身不含有信息的时候自然也不含冗余信息，同时引入平均互信息表示系统内的平均有用信息大小。

[0034] 3、本发明对深度学习模型的选择不受特定模型限制，可选用深度信念网络(Deep Belief Networks，DBN)、堆叠自动编码器(Stacked AutoEncoder，SAE)、循环神经网络(Recurrent Neural Networks,RNN)和Elman网络等深度学习模型。

实施方案

[0039] 下面结合附图对本发明优选实施例做详细说明。

[0040] 实施例1

[0041] 如图1所示，本实施例基于两阶段学习模型的网络攻击检测方法，按如下步骤进行：

[0042] 阶段1：网络数据集的特征维度约简；本阶段将网络数据集的特征子集被作为不可分单元进行特征组合的评估，实现网络数据集的特征维度约简；具体如下：

[0043] 步骤1.1，海量网络数据的预处理。首先对于超过特征缺失阈值限定的数据实例进行剔除初筛；进而在初筛后的网络数据集中将低信息量的特征予以删除，如序号、时间戳等；最后对网络数据集内非数值类型的特征进行one‑hot编码映射为二进制向量；

[0044] 步骤1.2，构建网络数据集的特征子集评估函数。基于网络数据特征和网络攻击类别的互信息(Mutual Information，MI)构建一个可度量的多元网络入侵检测分析模型F。

[0045]

[0046] 其中，具有n维特征的网络数据样本的具体数据并不作为输入，而是计算每一维网络数据特征与每一类网络攻击类别的互信息Iij作为输入，I(fi，Cj)＝H(fi)+H(Cj)‑H(fi，Cj)，表示第i维特征与第j个类别的互信息，其中H(fi，Cj)＝‑∑p((fi，Cj))log2p((fi，Cj))。T
将矩阵F中心化并标准化以后，由R＝PP计算得到关联矩阵Rel。再由和
计算得到关联信息熵HRel和为避免仅使用关联信息熵导致系统倾向于选
择本身信息量小的特征，即当系统本身不含有信息的时候自然也不含冗余信息，同时引入平均互信息表示系统内的平均有用信息大小，基于最大HRel和加权
可得到最后的评估函数 k1和k2是用于控制关联信息熵与平均
互信息对所选特征影响大小的非负常数。

[0047] 步骤1.3，使用二元粒子群(Binary Particle swarm optimization，BPSO)进化搜索策略确定特征子集。粒子h是一串0与1组成的bit串，它是n维特征的映射，当对应bit为1时则代表该维特征被选择。二元粒子群算法中，每一粒子在特征子集的解空间中移动，记录自身最优解(Pbest)和群体最优解(Gbest)来更新自身位置。Pbest是指个体搜索到的，包括曾经搜索到的适应度值最优的位置，而Gbest是指整个粒子群内所有粒子经历过的位置里计算适应度为最优的位置。粒子的更新如下：BPSO算法通过Sigmoid函数将连续速度值转为0或1的二进制向量，因
此粒子的位置也由0或1的二进制向量表示。重复上述过程，对BPSO进化搜索进行进化代数和最优收敛的限制，直到最终的网络数据特征子集确定。

[0048] 阶段2：基于网络数据特征子集的深度模型网络攻击检测；将缩减后的网络数据集作为训练数据利用深度学习技术实现网络攻击实时检测模型；具体如下：

[0049] 步骤2.1，深度网络攻击检测模型的训练。第一阶段结束后得到网络数据最佳特征子集，将最佳子集作为第二阶段深度学习模型的输入。本发明采用深度置信网络(Deep Belief Networks，DBN)。输入的网络特征子集数据由输入层X输入，经过隐藏层H计算，最后由输出层Y输出。通过预训练(pre‑training)使同一特征向量在不同的特征空间中映射时能更多地保留特征信息；通过微调(fine‑tuning)对整体以监督的方式训练得到一个分类器。深度学习模型输出层激活函数设置为线性函数，隐藏层神经元激活函数设置为Sigmoid函数。神经元层数及每层数目则根据网络特征子集数据规模进行具体设置，本发明为保证测试的时效性，设置为7层网络，神经元个数为[50,40,35,30,26,22,22]。

[0050] 步骤2.2，深度网络攻击检测模型的实时检测。检测模型系统首先收集网络数据，根据特征预处理和最优特征子集将网络数据缩减，将该数据输入已经训练好的深度学习网络模型，模型得出网络攻击类型或当前无攻击。

[0051] 步骤2.3，离线系统模型优化。根据网络攻击检测的实时监测数据进行人工复核，当检测错误实例超过限定阈值Δ时，则将错误实例进行人工纠错标记，将所有网络增量数据和原有网络数据融合重新进入第一阶段和第二阶段进行网络攻击检测系统模型的离线优化。

[0052] 实施例2

[0053] 如图4所示，本实施例基于两阶段学习模型的网络攻击检测系统，包括如下模块：

[0054] 网络数据集的特征维度约简模块：本模块将网络数据集的特征子集被作为不可分单元进行特征组合的评估，实现网络数据集的特征维度约简；具体包括如下子模块：

[0055] 海量网络数据的预处理模块：海量网络数据的预处理。首先对于超过特征缺失阈值限定的数据实例进行剔除初筛；进而在初筛后的网络数据集中将低信息量的特征予以删除，如序号、时间戳等；最后对网络数据集内非数值类型的特征进行one‑hot编码映射为二进制向量；

[0056] 网络数据集的特征子集评估函数构建模块：构建网络数据集的特征子集评估函数。基于网络数据特征和网络攻击类别的互信息(Mutual Information，MI)构建一个可度量的多元网络入侵检测分析模型F。

[0057]

[0058] 其中，具有n维特征的网络数据样本的具体数据并不作为输入，而是计算每一维网络数据特征与每一类网络攻击类别的互信息Iij作为输入，I(fi，Cj)＝H(fi)+H(Cj)‑H(fi，Cj)，表示第i维特征与第j个类别的互信息，其中H(fi，Cj)＝‑∑p((fi，Cj))log2p((fi，Cj))。T
将矩阵F中心化并标准化以后，由R＝PP计算得到关联矩阵Rel。再由和
计算得到关联信息熵HRel和为避免仅使用关联信息熵导致系统倾向于选
择本身信息量小的特征，即当系统本身不含有信息的时候自然也不含冗余信息，同时引入平均互信息表示系统内的平均有用信息大小，基于最大HRel和加权
可得到最后的评估函数 k1和k2是用于控制关联信息熵与平均
互信息对所选特征影响大小的非负常数。

[0059] 使用二元粒子群进化搜索策略确定特征子集模块：使用二元粒子群(Binary Particle swarm optimization，BPSO)进化搜索策略确定特征子集。粒子h是一串0与1组成的bit串，它是n维特征的映射，当对应bit为1时则代表该维特征被选择。二元粒子群算法中，每一粒子在特征子集的解空间中移动，记录自身最优解(Pbest)和群体最优解(Gbest)来更新自身位置。Pbest是指个体搜索到的，包括曾经搜索到的适应度值最优的位置，而Gbest是指整个粒子群内所有粒子经历过的位置里计算适应度为最优的位置。粒子的更新如下： BPSO算法通过Sigmoid函数将连续速度值转为0或1的二进制向量，因此粒子的位置也由0或1的二进制向量表示。重复上述过程，对BPSO进化搜索进行进化代数和最优收敛的限制，直到最终的网络数据特征子集确定。

[0060] 深度模型网络攻击检测模块：基于网络数据特征子集的深度模型网络攻击检测；将缩减后的网络数据集作为训练数据利用深度学习技术实现网络攻击实时检测模型；具体包括如下子模块：

[0061] 深度网络攻击检测模型的训练模块：深度网络攻击检测模型的训练。网络数据集的特征维度约简模块结束后得到网络数据最佳特征子集，将最佳子集作为深度模型网络攻击检测模块深度学习模型的输入。本发明采用深度置信网络(Deep Belief Networks，DBN)。输入的网络特征子集数据由输入层X输入，经过隐藏层H计算，最后由输出层Y输出。通过预训练(pre‑training)使同一特征向量在不同的特征空间中映射时能更多地保留特征信息；通过微调(fine‑tuning)对整体以监督的方式训练得到一个分类器。深度学习模型输出层激活函数设置为线性函数，隐藏层神经元激活函数设置为Sigmoid函数。神经元层数及每层数目则根据网络特征子集数据规模进行具体设置，本发明为保证测试的时效性，设置为7层网络，神经元个数为[50,40,35,30,26,22,22]。

[0062] 深度网络攻击检测模型的实时检测模块：深度网络攻击检测模型的实时检测。检测模型系统首先收集网络数据，根据特征预处理和最优特征子集将网络数据缩减，将该数据输入已经训练好的深度学习网络模型，模型得出网络攻击类型或当前无攻击。

[0063] 离线模型优化模块：离线系统模型优化。根据网络攻击检测的实时监测数据进行人工复核，当检测错误实例超过限定阈值Δ时，则将错误实例进行人工纠错标记，将所有网络增量数据和原有网络数据融合重新进入网络数据集的特征维度约简模块和深度模型网络攻击检测模块进行网络攻击检测系统模型的离线优化。

[0064] 上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

附图说明

[0035] 图1为两阶段学习模型的网络攻击检测方法流程示意图。

[0036] 图2为两阶段学习模型的网络攻击检测系统与单阶段网络攻击学习模型在三个网络数据集中的识别正确率对比图。CMI‑DL为本发明系统的一个实例，DBN为单阶段网络攻击学习模型的一个实例。

[0037] 图3为两阶段学习模型的网络攻击检测系统与单阶段网络攻击学习模型在不同网络数据集中的学习模型实时检测时间对比图(以秒为单位)。CMI‑DL为本发明系统的一个实例，DBN为单阶段网络攻击学习模型的一个实例。

[0038] 图4为两阶段学习模型的网络攻击检测系统框图。

1物联网环境下基于混合深度学习的网络攻击检测方法 2基于两阶段学习模型的网络攻击检测系统及方法 3一种基于深度k近邻的网络攻击检测方法及装置