基于改进深度Q学习的网络选择算法.docx资源-CSDN文库

版权申诉

58 浏览量 2023-02-23 20:09:31 上传评论收藏 509KB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

随着无线移动通信的发展，由 5G 异构蜂窝网络、无线局域网等多种接入技术构成的

超密集异构无线网络，可为终端提供多种接入方式，支持终端的无缝移动。超密集组网会

带来较高的能耗问题，引入休眠机制会一定程度降低能耗，同时，会进一步增强网络的动

态性，导致终端服务质量和网络吞吐量等性能均下降。如何在高动态的超密集异构无线网

络，保证终端所获得的吞吐量，并提升网络系统综合切换性能，成为当前研究需要解决的

重要课题

[1]

。

目前，国内外相关研究工作较多，从采取的研究方法来划分，网络选择算法大致可以

分成两类：(1)基于参数阈值的网络选择算法

[2-5]

，主要是以接收信号强度(Receive Signal

Strength, RSS)等参数进行网络选择判决。文献[4]基于 RSS 的阈值，通过比较候选网络的

RSS 数值大小，从而进行网络选择。该类算法实现简单，选网参数易于获取，计算复杂度

较低；但是，该类算法容易导致乒乓效应，无法完全体现接入网络的服务质量。(2)基于模

糊逻辑或强化学习等人工智能方法的网络选择算法

[6-14]

。文献[6]采用模糊逻辑算法，根据

终端应用对 QoS 参数的需求，通过设计不同的隶属度函数，合理地选择网络。该类算法选

网效率较高，但是需要事先建立相应的模糊推理规则库，在输入参数增加的情况下，模糊

规则库的数量会激增，导致推理时间复杂度过大。文献[8]基于神经网络算法，根据不同业

务类型，对分类后的参数进行训练，从而进行网络选择。该类算法具有强大的学习能力，

能够根据环境自适应地进行调整。文献[11]提出一种基于体验质量(Quality of Experience,

QoE)感知的网络选择方案，将 QoS 的网络参数映射成 QoE 参数，然后利用 QoE 参数构造

回报函数，最后采用 Q 学习算法进行网络选择。该类算法能够通过不断的学习强化已有收

益，从而选择高收益网络；但是，如果网络环境过于复杂，会导致网络控制模块学习效果

下降，继而导致无法选择到最佳网络。

对于引入休眠机制的超密集异构无线网络环境，随着该网络环境下基站数量的激增，

同时引入休眠机制以节能，导致基站数量发生动态改变，继而导致网络动态性增强，网络

拓扑结构时变性提高。同时，终端自身的移动性和基站之间由于密集布网所产生的干扰，

导致网络动态性进一步加剧，而现有的相关文献，解决的是常规异构无线网络下的网络选

择问题，并未考虑到如此高动态的网络环境，这样会使终端在通过现有选网算法切换到目

标网络之后，可能因目标网络突然休眠，导致所获得的吞吐量出现快速下滑，无法为终端

提供持续稳定的吞吐量，基站之间产生的干扰又会严重影响到终端的服务满意度，最终发

生系统切换性能严重降低的问题。因此，上述算法对于这一严峻问题，关注不足。

3. 参数采样及初始化过程

3.1 参数采样

由于本文采用深度 Q 学习算法对网络选择行为进行建模，因此，在通过深度 Q 学习

算法进行建模的过程中，需要周期性采样网络参数的值来构建深度 Q 学习的动作空间、状

态空间和回报函数，以初始化深度 Q 学习选网模型，本文采样的参数如下。

(1)接收信号强度表示为

RSS=ρij−ηlg(dij)+u1RSS=ρij−ηlg⁡(dij)+u1

(1)

其中，dijdij 为用户终端 ii 到网络接入点 jj 的距离，ρijρij 为用户终端 ii 接收到网络接

入点 jj 的发射功率，ηη 为路径损耗因子，u1u1 为服从均值为 0、标准差为 σ1σ1 的高斯白

噪声。

(2)终端所获下行吞吐量可表示为

C=Wlog2(1+SINR)C=Wlog2(1+SINR)

(2)

其中，WW 为网络的可用带宽，SINRSINR 为用户终端的信干噪比。

(3)根据文献[15]建立的干扰模型，干扰影响因子可表示为

ψ=E[exp(I⋅(−β⋅rjαρij))]ψ=E[exp(I⋅(−β⋅rjαρij))]

(3)

其中，II 为干扰信号强度，ββ 为用户终端所能接受的最低信干噪比阈值，本文设置为

1 dB，rjrj 为网络接入点 jj 的半径，αα 为路径衰落因子，E(⋅)E(⋅)为期望函数。

(4)根据泊松点过程模型的特征，休眠概率可表示为

P=P(λnow<λmin)=1−∑λminλmaxe−λnowλnowλminλmin!P=P(λnow<λmin)=1−∑λminλmaxe−λnowλnowλminλmin!

(4)

其中，λnowλnow 为基站当前所接入的终端数，λminλmin 为基站处于活跃状态的最低

接入终端数，λmaxλmax 为基站最大可容纳终端数，当 λnow<λminλnow<λmin 时，基站进行

休眠操作。

3.2 初始化过程

本文将超密集异构无线网络环境中终端可以接入的候选网络(基站和访问点)用集合

N={n1,n2,⋯,N={n1,n2,⋯,ni}ni}表示；其中终端在 tt 时刻接入候选网络 nini 表示为

at(ni)at(ni)，则本文的动作空间可定义为 At={at,at∈{at(n1),At={at,at∈

{at(n1),at(n2),⋯,at(ni)}}at(n2),⋯,at(ni)}}。

本文将状态空间定义为 St=(rsst,ct,ψt,pt)St=(rsst,ct,ψt,pt)，其中，rsstrsst 表示在 tt 时

刻各候选网络的接收信号强度集合，ctct 表示在 tt 时刻各候选网络的吞吐量集合，ψtψt 表

示在 tt 时刻各候选网络的干扰影响因子集合，ptpt 表示在 tt 时刻各候选网络的休眠概率集

合。

剩余11页未读，继续阅读

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3663
资源: 1万+

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip