没有合适的资源?快使用搜索试试~ 我知道了~
基于改进深度Q学习的网络选择算法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 58 浏览量
2023-02-23
20:09:31
上传
评论
收藏 509KB DOCX 举报
温馨提示
试读
12页
基于改进深度Q学习的网络选择算法.docx
资源推荐
资源详情
资源评论
1. 引言
随着无线移动通信的发展,由 5G 异构蜂窝网络、无线局域网等多种接入技术构成的
超密集异构无线网络,可为终端提供多种接入方式,支持终端的无缝移动。超密集组网会
带来较高的能耗问题,引入休眠机制会一定程度降低能耗,同时,会进一步增强网络的动
态性,导致终端服务质量和网络吞吐量等性能均下降。如何在高动态的超密集异构无线网
络,保证终端所获得的吞吐量,并提升网络系统综合切换性能,成为当前研究需要解决的
重要课题
[1]
。
目前,国内外相关研究工作较多,从采取的研究方法来划分,网络选择算法大致可以
分成两类:(1)基于参数阈值的网络选择算法
[2-5]
,主要是以接收信号强度(Receive Signal
Strength, RSS)等参数进行网络选择判决。文献[4]基于 RSS 的阈值,通过比较候选网络的
RSS 数值大小,从而进行网络选择。该类算法实现简单,选网参数易于获取,计算复杂度
较低;但是,该类算法容易导致乒乓效应,无法完全体现接入网络的服务质量。(2)基于模
糊逻辑或强化学习等人工智能方法的网络选择算法
[6-14]
。文献[6]采用模糊逻辑算法,根据
终端应用对 QoS 参数的需求,通过设计不同的隶属度函数,合理地选择网络。该类算法选
网效率较高,但是需要事先建立相应的模糊推理规则库,在输入参数增加的情况下,模糊
规则库的数量会激增,导致推理时间复杂度过大。文献[8]基于神经网络算法,根据不同业
务类型,对分类后的参数进行训练,从而进行网络选择。该类算法具有强大的学习能力,
能够根据环境自适应地进行调整。文献[11]提出一种基于体验质量(Quality of Experience,
QoE)感知的网络选择方案,将 QoS 的网络参数映射成 QoE 参数,然后利用 QoE 参数构造
回报函数,最后采用 Q 学习算法进行网络选择。该类算法能够通过不断的学习强化已有收
益,从而选择高收益网络;但是,如果网络环境过于复杂,会导致网络控制模块学习效果
下降,继而导致无法选择到最佳网络。
对于引入休眠机制的超密集异构无线网络环境,随着该网络环境下基站数量的激增,
同时引入休眠机制以节能,导致基站数量发生动态改变,继而导致网络动态性增强,网络
拓扑结构时变性提高。同时,终端自身的移动性和基站之间由于密集布网所产生的干扰,
导致网络动态性进一步加剧,而现有的相关文献,解决的是常规异构无线网络下的网络选
择问题,并未考虑到如此高动态的网络环境,这样会使终端在通过现有选网算法切换到目
标网络之后,可能因目标网络突然休眠,导致所获得的吞吐量出现快速下滑,无法为终端
提供持续稳定的吞吐量,基站之间产生的干扰又会严重影响到终端的服务满意度,最终发
生系统切换性能严重降低的问题。因此,上述算法对于这一严峻问题,关注不足。
通过上述对引入休眠机制的超密集异构无线网络环境进行动态性分析,可以得出,该
网络环境具有高动态特性,会使现有的网络选择算法出现切换性能严重下降的问题。因
此,本文基于一种改进深度 Q 学习算法,以保证终端所获得的网络吞吐量,缓解系统因高
动态性网络环境导致的切换性能严重降低的问题。同时,针对传统的深度 Q 学习算法在进
行网络选择时,由于在线训练神经网络导致时延过大,出现算法失效的情况,本文利用迁
移学习,加速训练神经网络,以降低在线选网的时间复杂度。综上,本文的主要贡献可概
括为:
(1)针对由无线局域网络和引入休眠机制的超密集蜂窝网络异构而成的超密集异构无线
网络环境,进行动态性分析,以期缓解系统切换性能降低的问题。
(2)本文采用迁移学习对深度 Q 学习算法进行改良,提出一种基于改进深度 Q 学习的
网络选择算法,降低了传统深度 Q 学习算法在线上选网过程中的时间复杂度。
2. 算法流程
本文算法的流程图如图 1 所示,主要包括参数采样及初始化过程、深度 Q 学习选网
模型、最优策略及网络选择 3 个阶段。第 1 阶段通过周期性采样网络参数的值来初始化深
度 Q 学习选网模型,该模型由线下训练模块与线上决策模块构成,上述两个模块均采用深
度 Q 网络构建;第 2 阶段利用迁移学习对线下训练模块和线上决策模块进行协同交互;第
3 阶段通过深度 Q 学习选网模型得到最优策略并进行网络选择。图 1 的历史信息数据库包
含网络参数的采样值以及历史选网信息数据,作为深度 Q 学习选网模型的训练数据。
图 1 本文算法流程图
下载: 全尺寸图片 幻灯片
3. 参数采样及初始化过程
3.1 参数采样
由于本文采用深度 Q 学习算法对网络选择行为进行建模,因此,在通过深度 Q 学习
算法进行建模的过程中,需要周期性采样网络参数的值来构建深度 Q 学习的动作空间、状
态空间和回报函数,以初始化深度 Q 学习选网模型,本文采样的参数如下。
(1)接收信号强度表示为
RSS=ρij−ηlg(dij)+u1RSS=ρij−ηlg(dij)+u1
(1)
其中,dijdij 为用户终端 ii 到网络接入点 jj 的距离,ρijρij 为用户终端 ii 接收到网络接
入点 jj 的发射功率,ηη 为路径损耗因子,u1u1 为服从均值为 0、标准差为 σ1σ1 的高斯白
噪声。
(2)终端所获下行吞吐量可表示为
C=Wlog2(1+SINR)C=Wlog2(1+SINR)
(2)
其中,WW 为网络的可用带宽,SINRSINR 为用户终端的信干噪比。
(3)根据文献[15]建立的干扰模型,干扰影响因子可表示为
ψ=E[exp(I⋅(−β⋅rjαρij))]ψ=E[exp(I⋅(−β⋅rjαρij))]
(3)
其中,II 为干扰信号强度,ββ 为用户终端所能接受的最低信干噪比阈值,本文设置为
1 dB,rjrj 为网络接入点 jj 的半径,αα 为路径衰落因子,E(⋅)E(⋅)为期望函数。
(4)根据泊松点过程模型的特征,休眠概率可表示为
P=P(λnow<λmin)=1−∑λminλmaxe−λnowλnowλminλmin!P=P(λnow<λmin)=1−∑λminλmaxe−λnowλnowλminλmin!
(4)
其中,λnowλnow 为基站当前所接入的终端数,λminλmin 为基站处于活跃状态的最低
接入终端数,λmaxλmax 为基站最大可容纳终端数,当 λnow<λminλnow<λmin 时,基站进行
休眠操作。
3.2 初始化过程
本文将超密集异构无线网络环境中终端可以接入的候选网络(基站和访问点)用集合
N={n1,n2,⋯,N={n1,n2,⋯,ni}ni}表示;其中终端在 tt 时刻接入候选网络 nini 表示为
at(ni)at(ni),则本文的动作空间可定义为 At={at,at∈{at(n1),At={at,at∈
{at(n1),at(n2),⋯,at(ni)}}at(n2),⋯,at(ni)}}。
本文将状态空间定义为 St=(rsst,ct,ψt,pt)St=(rsst,ct,ψt,pt),其中,rsstrsst 表示在 tt 时
刻各候选网络的接收信号强度集合,ctct 表示在 tt 时刻各候选网络的吞吐量集合,ψtψt 表
示在 tt 时刻各候选网络的干扰影响因子集合,ptpt 表示在 tt 时刻各候选网络的休眠概率集
合。
剩余11页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3663
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 实验二:IP协议分析.zip
- 驱动代码驱动代码驱动代码驱动代码
- SVID_20240523_141155_1.mp4
- Code for the complete guide to tkinter tutorial
- 关于百货中心供应链管理系统.zip
- SimpleFolderIcon-master 修改Unity的Project下的文件夹图标
- A python Tkinter widget to display tile based maps
- A pure Python library for adding tables to a Tkinter application
- Vector资源文件.zip
- MobaXterm-Installer
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功