盲专网 - 基于案例推理与合作Q学习的认知无线电资源分配方法

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2018-12-11

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2019-06-14

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-05-11

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2038-12-11

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201811511217.3	申请日	2018-12-11
公开/公告号	CN109787696B	公开/公告日	2021-05-11
授权日	2021-05-11	预估到期日	2038-12-11
申请年	2018年	公开/公告年	2021年
缴费截止日
分类号	H04B17/382 、H04W72/04	主分类号	H04B17/382
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	2
权利要求数量	3	非专利引证数量	0
引用专利数量	4	被引证专利数量	0
非专利引证
引用专利	CN103220751A、CN108401254A、CN108112082A、CN108833040A	被引证专利
专利权维持	4	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	徐琳、赵知劲、楼巧巧、占锦敏、王琳	第一发明人	徐琳
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	5
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明公开了一种基于案例推理与合作Q学习的认知无线电资源分配方法。本发明结合了案例推理技术、合作算法与Q学习算法，实现信道和功率的联合分配。首先确定奖赏函数，对若干个随机资源分配案例利用传统Q学习算法进行学习，构建案例库以存储案例的特征值、Q值和效用值；然后通过匹配检索出与当前案例最相似案例，提取其Q值并归一化后作为新案例的初始Q值；接着根据奖赏值大小，采用合作算法融合Q值，通过借鉴其他用户的经验来进行学习。本发明针对传统Q学习收敛速度慢的问题，引入案例推理技术来加快算法的初始寻优速度，同时通过用户间合作加快整体的学习效率。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-05-11	授权
2	2019-06-14	实质审查的生效	IPC(主分类): H04B 17/382 专利申请号: 201811511217.3 申请日: 2018.12.11
3	2019-05-21	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于案例推理与合作Q学习的认知无线电资源分配方法，其特征在于该方法的具体内容为：
步骤1、随机初始化若干案例，给定学习速率α、折扣因子γ、初始温度参数T0和总迭代次数I，利用传统Q学习算法进行学习，构建成案例库；
步骤2、当前新案例和案例库中历史案例进行匹配，检索出最相似案例的Q值，对该Q值归一化后作为迭代的初始Q值；
步骤3、认知用户感知当前状态st，根据动作策略选择动作at，执行后得到奖赏值rt和下一状态st+1；
步骤4、比较当前时刻所有认知用户的奖赏值总和和前一次迭代时刻的总奖赏值的大小，若则各Agent进行独立学习；若则Agent
间进行合作学习；
步骤5、根据不同的学习方式进行Q值更新，并更新温度参数
步骤6、重复步骤3～5，直到达到总迭代次数；
步骤1具体包括如下内容：
案例库构建：随机初始化若干案例Ck，进行传统的Q学习，得到最终状态‑动作函数Q值和认知系统的能量效率；将每个案例的环境因子保存为特征向量Vk，可表示为：
其中，n表示案例的特征个数；将最终Q值保存为解决方案Yk，将认知系统的能量效率保存为案例效用值Ek，从而构建成案例库；
步骤2具体如下：
假设新案例的特征向量为采用欧式距离作为
衡量案例间的相似度函数，新案例与历史案例Ck的相似函数值为：
其中，ξl为第l个特征的权值，∑ξl＝1；从而可得匹配案例
其中，L为案例库中历史案例总个数。

2.根据权利要求1所述的基于案例推理与合作Q学习的认知无线电资源分配方法，其特征在于步骤3具体如下：
4‑
1.动作选择策略：利用Boltzmann机制计算动作的选择概率
然后采用轮盘赌算法进行动作的选择；其中，T为温度参数，当T
较大时指数较小，则得到的各动作概率大致相同；随着T值的减少，则概率P的取值对Q值的依赖增大，即Q值大的动作概率相对越大；
4‑
2.奖赏函数：资源分配算法旨在保证主用户正常通信的前提下，追求认知系统能量效率的最大化；因此，系统中若有用户的通信产生冲突，奖赏值为“‑3”；若认知用户的信干噪比SINRi小于阈值，则奖赏值为“0”，其中， n0
为高斯白噪声功率；pi为认知用户选择的功率；hji(m)为在信道m上，认知用户j到认知用户i的信道增益；为主用户功率；gki(m)为在信道m上，主用户k到认知用户i的信道增益；若认知用户能正常通信，则奖赏值为“能量效率Φi”， W为信道带宽。

3.根据权利要求1所述的基于案例推理与合作Q学习的认知无线电资源分配方法，其特征在于步骤4和步骤5具体如下：
合作Q学习算法考虑多Agent系统的整体收益，若则Agent间进行合作
学习，即将自身Q值与其他具有更大奖赏值的Agent Q值的加权和作为当前学习的Q更新值，其计算式如下所示，
其中，ωij为折扣权值，表明其他Agent的经验对当前Agent学习的影响程度，其计算式如下所示，
其中，δ为较接近1的常数，rj为Agentj当前时刻的奖赏值。

说明书

技术领域

[0001] 本发明属于认知无线电领域，具体涉及一种基于案例推理与合作 Q学习的认知无线电资源分配算法。

背景技术

[0002] 针对传统频谱管理方案存在的频谱利用率低的问题，已提出了一种认知无线电技术。认知无线电允许认知用户在不干扰主用户通信的前提下，动态地接入空闲信道，因而能有效地提高频谱利用率。动态资源分配是认知无线电的一种关键技术，是通过信道、功率和调制方式等传输参数的优化来提高系统性能。

[0003] 强化学习通过奖惩原则来优化决策，是一种人工智能算法。Q学习是一种使用最广泛的强化学习算法，已经成功应用于认知无线电网络的动态资源分配。认知无线电领域中，常用的Q学习分为单Agent Q学习和多Agent Q学习。多Agent Q学习算法又包括多Agent Q独立学习和多Agent Q合作学习，其算法通常将Q值初始化为0或较小的随机数，这将会影响算法的寻优效率。而相较于多Agent Q合作学习，多Agent Q独立学习算法的性能也较差。

[0004] 案例推理也是一种人工智能技术，通过与历史案例的匹配，借鉴历史案例的经验来指导新问题的解决。现有的案例推理与Q学习结合算法的研究大多是单独考虑信道或功率的分配，在信道和功率联合分配中的应用未见报道。因此，本发明提出基于案例推理与合作Q 学习的认知无线电资源分配算法。

发明内容

[0005] 本发明是针对传统Q学习算法中存在的收敛速度慢的问题，提供一种基于案例推理与合作Q学习算法，实现分布式认知无线电网络的信道和功率分配。

[0006] 本发明采用的算法具体包括以下步骤：

[0007] 步骤1、随机初始化若干案例，给定学习速率α、折扣因子γ、初始温度参数T0和总迭代次数I，利用传统Q学习算法进行学习，构建成案例库；

[0008] 步骤2、当前新案例和案例库中历史案例进行匹配，检索出最相似案例的Q值，对该Q值归一化后作为迭代的初始Q值；

[0009] 步骤3、认知用户感知当前状态st，根据动作策略选择动作at，执行后得到奖赏值rt和下一状态st+1；

[0010] 步骤4、比较当前时刻所有认知用户的奖赏值总和和前一次迭代时刻的总奖赏值的大小，若则各Agent进行独立学习；若则Agent间进行合作学习；

[0011] 步骤5、根据不同的学习方式进行Q值更新，并更新温度参数

[0012] 步骤6、重复步骤3～5，直到达到总迭代次数。

[0013] 步骤1具体包括如下内容：

[0014] 案例库构建：随机初始化若干案例Ck，进行传统的Q学习，得到最终状态‑动作函数Q值和认知系统的能量效率；将每个案例的环境因子保存为特征向量Vk，可表示为：

[0015]

[0016] 其中，n表示案例的特征个数；将最终Q值保存为解决方案Yk，将认知系统的能量效率保存为案例效用值Ek，从而构建成案例库。

[0017] 步骤2具体如下：

[0018] 假设新案例的特征向量为采用欧式距离作为衡量案例间的相似度函数，新案例与历史案例Ck的相似函数值为：

[0019]

[0020] 其中，ξl为第l个特征的权值，∑ξl＝1；从而可得匹配案例

[0021]

[0022] 其中，为案例库中历史案例总个数。

[0023] 步骤3具体如下：

[0024] 4‑1.动作选择策略：利用Boltzmann机制计算动作的选择概率然后采用轮盘赌算法进行动作的选择；其中， T为温度参数，当T
较大时指数较小，则得到的各动作概率大致相同；随着T值的减少，则概率P的取值对Q值的依赖增大，即Q值大的动作概率相对越大；

[0025] 4‑2.奖赏函数：资源分配算法旨在保证主用户正常通信的前提下，追求认知系统能量效率的最大化；因此，系统中若有用户的通信产生冲突，奖赏值为“‑3”；若认知用户的信干噪比SINRi小于阈值，则奖赏值为“0”，其中，n0为高斯白噪声功率；pi为认知用户选择的功率；hji(m)为在信道m上，认知用户j到认知用户i的信道增益；为主用户功率；gki(m)为在信道 m上，主用户k到认知用户i的信道增益；若认知用户能正常通信，则奖赏值为“能量效率Φi”， W为信道带
宽。

[0026] 步骤4和步骤5具体如下：

[0027] 合作Q学习算法考虑多Agent系统的整体收益，若则Agent间进行合作学习，即将自身Q值与其他具有更大奖赏值的 Agent Q值的加权和作为当前学习的Q更新值，其计算式如下所示，

[0028]

[0029] 其中，ωij为折扣权值，表明其他Agent的经验对当前Agent学习的影响程度，其计算式如下所示，

[0030]

[0031] 其中，δ为较接近1的常数，rj为Agentj当前时刻的奖赏值。

[0032] 本发明与现有技术相比，有以下明显优点：

[0033] (1)利用案例推理技术通过匹配历史案例，得到最相似案例的 Q值来初始化新问题的Q值，使得合作Q学习在迭代初期就靠近最优解，加快寻优的速度。

[0034] (2)针对多Agent独立Q学习不能实现信息共享的缺点，引入合作算法，Agent通过融合表现更好的Agent的Q值来借鉴学习经验，以加快自身的学习。

实施方案

[0036] 如图1所示，一种基于案例推理与合作Q学习的认知无线电资源分配方法，具体步骤如下：

[0037] 步骤1、随机初始化若干案例，给定学习速率α、折扣因子γ、初始温度参数T0和总迭代次数I，利用传统Q学习算法进行学习，构建成案例库。

[0038] 具体如下：

[0039] 案例库构建：随机初始化若干案例Ck，进行传统的Q学习迭代，得到最终状态‑动作函数Q值和认知系统的能量效率。将每个案例的环境因子保存为特征向量Vk，可表示为：

[0040]

[0041] 其中，n表示案例的特征个数。将最终Q值保存为解决方案，将认知系统的能量效率保存为案例效用值，从而构建成案例库。

[0042] 步骤2、当前新案例和案例库中历史案例进行匹配，检索出最相似案例的Q值，对其归一化后作为迭代的初始Q值。

[0043] 具体如下：

[0044] 假设新案例的特征向量为采用欧式距离作为衡量案例间的相似度函数，新案例与历史案例Ck的相似函数值为：

[0045]

[0046] 其中，ξl为第l个特征的权值，∑ξl＝1。从而可得匹配案例

[0047]

[0048] 步骤3、认知用户感知当前状态st，根据动作策略选择动作at，执行后得到奖赏值rt和下一状态st+1。

[0049] 具体如下：

[0050] 3‑1.动作选择策略：利用Boltzmann机制计算动作的选择概率然后采用轮盘赌算法进行动作的选择。其中， T为温度参数，当T
较大时，所有动作被选择的概率大致相同；随着 T值的减少，Q值较大的动作被选择的概率越大。

[0051] 3‑2.奖赏函数：资源分配算法旨在保证主用户正常通信的前提下，追求分布式认知网络系统能量效率的最大化。因此，系统中若有用户的通信产生冲突，奖赏值为“‑3”；若认知用户的信干噪比SINRi小于阈值，则奖赏值为“0”，其中， n0为高斯白噪声功率；pi为认知用户选择的功
率；hji(m)为在信道m 上，认知用户j到认知用户i的信道增益；为主用户功率；gki(m) 为在信道m上，主用户k到认知用户i的信道增益；若认知用户能正常通信，则奖赏值为能量效率 W为信道带宽。

[0052] 步骤4、比较当前时刻所有认知用户的奖赏值总和和前一次迭代时刻的总奖赏值的大小，若则各Agent进行独立学习；若则Agent间进行合作学习；

[0053] 步骤5、根据不同的学习方式进行Q值更新，并更新温度参数

[0054] 具体如下：

[0055] 合作Q学习算法考虑多Agent系统的整体收益，若则Agent间进行合作学习，即将自身Q值与其他具有更大奖赏值的 Agent Q值的加权和作为当前学习的Q更新值，其计算式如下所示，

[0056]

[0057] 其中，ωij为折扣权值，表明其他Agent的经验对当前Agent学习的影响程度，其计算式如下所示，

[0058]

[0059] 其中，δ为较接近1的常数，rj为Agentj当前时刻的奖赏值。

[0060] 步骤6、重复步骤3～5，直到达到总迭代次数。

[0061] 至此，整个基于案例推理与合作Q学习的认知无线电资源分配算法到此结束，其流程如图所示。

附图说明

[0035] 图1为本发明流程框图。

首页 > 专利 > 杭州电子科技大学 > 基于案例推理与合作Q学习的认知无线电资源分配方法专利详情

基于案例推理与合作Q学习的认知无线电资源分配方法 0 0

技术领域

背景技术

发明内容

实施方案

附图说明