没有合适的资源?快使用搜索试试~ 我知道了~
基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
5星 · 超过95%的资源 1 下载量 193 浏览量
2023-02-23
20:01:23
上传
评论
收藏 624KB DOCX 举报
温馨提示
"基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法" 本文研究了基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法,旨在解决复杂电磁环境下跳频异步组网中的抗干扰问题。该算法首次应用多智能体深度强化学习算法进行各子网参数智能决策,实现避免同频干扰和对抗敌意干扰的目的。 跳频通信技术具有抗传统干扰能力较强、难以截获和易组网的特点,基于其建立的跳频通信网广泛应用于通信领域。然而,随着无线设备不断增加,干扰技术逐渐智能化,跳频网络工作的电磁环境变得越来越复杂,需要大量频谱资源支持的传统抗干扰技术已无法满足需求。 智能抗干扰技术由于具有更强的灵活性和抗干扰性能,已逐渐受到关注。通信设备的网络化运用不仅可以提升系统信息传递速率,其抗侦察、抗截获和抗干扰能力也明显优于点对点通信。跳频组网通信中需要同时应对同频干扰、敌意干扰和自然干扰。 基于多智能体模糊深度强化学习的跳频组网智能抗干扰决策算法可以解决多智能体系统中各 Agent 相互影响和环境不稳定的问题。该算法将集中式训练分散式执行框架以及共享经验池引入多智能体深度强化学习中,以解决 Agent 的差异性和协调合作问题。 此外,该算法还提出了基于模糊推理系统的融合权重分配策略,采用模糊推理系统以 Agent 获得的累计平均奖赏和样本优先度为标准估计各网络性能并分配权重用于网络融合,使性能好的 Agent 能做出更大的贡献,从而提高算法性能。 该算法的优点在于可以实时适应复杂电磁环境,避免同频干扰和对抗敌意干扰,提高跳频组网的抗干扰能力和系统性能。该算法的提出将为跳频组网智能抗干扰技术的发展提供新的思路和方法论。
资源推荐
资源详情
资源评论
1. 引言
为构建更稳定、高效的无线通信系统,抗干扰技术的重要性日益突出。跳频通信技术
具有抗传统干扰能力较强、难以截获和易组网的特点,基于其建立的跳频通信网广泛应用
于通信领域
[1]
。随着无线设备不断增加,干扰技术逐渐智能化,跳频网络工作的电磁环境
变得越来越复杂,需要大量频谱资源支持的传统抗干扰技术已无法满足需求。而智能抗干
扰技术由于具有更强的灵活性和抗干扰性能,已逐渐受到关注。
通信设备的网络化运用不仅可以提升系统信息传递速率,其抗侦察、抗截获和抗干扰
能力也明显优于点对点通信
[2]
。跳频组网通信中需要同时应对同频干扰、敌意干扰和自然
干扰。传统的降低同频干扰的方法主要有增加频带宽度、跳频频点数、设计相关性好的跳
频序列等。文献[3]分别从技术和策略上研究了跳频组网抗干扰技术,其使用了加密的宽间
隔跳频图案,并以节点慢速跳频扫描跟踪和多频点轮流发送同步信息的方式改进了组网的
同步过程,提高了同步过程的抗干扰性能。文献[4]基于网络拓扑抽象出基本组网场景,并
构建频率规划求解模型,提高了具有多节点、多子网、多频表的网络的资源协同规划效
率。文献[5]提出了一种基于碰撞跳频码一致的同频干扰消除方案,通过在碰撞频点上传输
空码元避免频率碰撞,提高跳频组网效率。文献[6]提出了一种认知无线 Ad-hoc 网络中的
频段动态管理方法,其中节点仅在感知到目标频段空闲时才进行频率跳变并提出了无碰撞
下一频率可用性指示(Next Frequency Availability Indication, NFAI)方法使节点间共享感知结
果,减少服务中断时间。然而,复杂的电磁环境、稀缺的频谱资源和激增的设备数量导致
传统抗干扰技术在跳频组网中难以发挥作用。并且,目前几乎没有关于同时对抗同频干扰
和敌意干扰的研究。对此,文献[7]提出了根据干扰因素调整通信参数的智能组网技术,能
最优化通信资源,提升系统抗干扰能力。
跳频组网中的智能抗干扰决策涉及多个用户,是典型的多智能体系统。其中,每个用
户的决策都将影响环境和其他用户的决策,这造成了环境的非平稳性
[8]
。而强化学习是解
决动态和未知环境中智能决策问题的有效方法
[9]
。多智能体强化学习则将上述两个方面结
合起来,是强化学习中的重要分支。目前多智能体强化学习的主要问题包括智能体的差异
性和协调合作、环境非平稳性、奖励机制复杂、算法效率较低等。针对智能体差异和协调
的问题,文献[10]针对分布式认知无线电网络中信道和功率分配问题提出了一种合作 Q 学
习(Q-Learning, QL)算法,使各 Agent 在学习过程中融合其他具有更高奖赏值的 Agent 的 Q
值来获取学习经验,减少不必要的探索,该算法较单 Agent 的 QL 算法有更高的学习速率
和系统性能。文献[11]研究了具有多个主用户、次用户和信道的认知无线电网络中的动态
资源管理问题,使用多个独立的深度 Q 网络(Deep Q Network, DQN)学习非平稳性环境,实
现频谱资源分配。文献[12]则研究了系统的奖励机制,设计了包含合作和竞争因素的奖励
函数及分配策略,并使用共享经验池,从而提出了基于多智能体虚拟体验的深度 Q 学习
(Multi-agent Virtual Exploration in Deep Q-Learning, MVEDQL)算法,实现了 Agent 之间的协
调和相互学习。文献[13]将空战仿真中计算机生成兵力智能化问题建模为两人零和博弈问
题,设计了一种基于势函数的奖励成型方法,从而提出了一种带奖赏形成机制的深度确定
性策略梯度(Multi-Agent Deep Deterministic Policy Gradient with Reward Shaping, RS-
MADDPG)算法,有效提升了空战策略生成算法的有效性和生成策略的智能化水平。
本文研究复杂电磁环境下跳频异步组网中的抗干扰问题,首次应用多智能体深度强化
学习算法进行各子网参数智能决策,实现避免同频干扰和对抗敌意干扰的目的,从而提出
了基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(Multi-agent Fuzzy Deep
Reinforcement Learning based on Centralized Training and Decentralized Execution, MFDRL-
CTDE)算法。针对多智能体系统中各 Agent 相互影响和环境不稳定的问题,将集中式训练
分散式执行框架以及共享经验池引入多智能体深度强化学习中。针对 Agent 的差异性和协
调合作问题,本文提出了基于模糊推理系统的融合权重分配策略,采用模糊推理系统以
Agent 获得的累计平均奖赏和样本优先度为标准估计各网络性能并分配权重用于网络融
合,使性能好的 Agent 能做出更大的贡献,从而提高算法性能。最后,本文采用了 Dueling
DQN 算法和优先经验回放技术以进一步提高算法的效率。该算法在跳频异步组网智能抗干
扰决策问题中具有更快的收敛速度和更高、更稳定的收敛性能,并且对多变的复杂电磁环
境具有更好的适应性。
2. 系统模型
2.1 跳频组网
跳频通信网是通过频率跳变方式将相当宽的频带内的大量用户组建成的通信网,实现
网内任意用户间的通信。跳频组网通信中的抗干扰主要分为对抗自然干扰和敌意干扰、减
小不同子网间和同一子网内节点间的同频干扰
[5]
。
跳频组网根据网络是否采用完全统一的时间基准可分为同步组网方式和异步组网方
式。同步组网中各个子网采用相同的跳频技术体制和跳频图案算法,且工作在同一张跳频
频率表上,其每一跳的起跳时间和驻留时间完全一致。因此,同步组网方式的效率很高,
不存在同频干扰
[14]
,但是对同步性能要求很高,实现困难,建网速度慢,复杂度高,难以
保持,并且抗阻塞干扰能力差。异步组网对各子网之间跳频时序、跳频图案和频率表等方
面没有约束,各子网之间不需要同步,而子网内各节点需要同步
[15]
。异步组网方式组织使
用方便、灵活,是目前最常用的组网方式,但是组网效率较低,抗侦察能力较差,存在一
定程度的同频干扰,并且随着节点数量的增加和频谱资源的日益稀缺,同频干扰的影响会
越来越大。为尽量避免同频干扰,异步组网方式需要更高效、更智能的频谱资源分配方
式。
本文的跳频网络中,对于同一子网内的节点采用时分多址复用技术
[3]
,各节点使用相
同的跳频图案分时隙地发送数据,从而避免网内同频干扰。各子网之间则采用异步组网方
式,通过智能规划频谱资源,尽量避免网间同频干扰并应对敌意干扰。
2.2 马尔可夫博弈
强化学习以其免模型和与环境交互的特点能有效地解决各种复杂环境中的智能决策问
题。马尔可夫决策过程(Markov Decision Process, MDP)是单智能体强化学习方法的基础理
论,其描述了单智能体在决策问题中状态-动作空间、观测、奖赏、状态转移函数等因素。
但是在多智能体系统中有多个智能体同时与环境交互,单个智能体往往无法完整地观测整
个环境,且其动作将影响环境和其他智能体,故无法通过 MDP 完善地描述该系统,进而
导致单智能体强化学习方法在多智能体系统中的决策效果有限。为了获得更大的奖赏,每
个智能体都需要学习环境和其他智能体的动作策略。
马尔可夫博弈(Markov Game, MG)是 MDP 在多智能体方向的拓展,是多智能体深度强
化学习的基础理论
[16]
。具有 I 个智能体的马尔可夫博弈可以由描述所有智能体状态空间集
合 S、动作空间集合[Math Processing Error]\boldsymbolA1,\boldsymbolA2,
⋯
,\boldsymbolAi,
⋯
,\boldsymbolAI 和观察集合[Math Processing Error]\boldsymbolO1,\boldsymbolO2,
⋯
,\boldsymbolOi,
⋯
,\boldsymbolOI 构成,其常用多元组[Math Processing
Error]<\boldsymbolS,\boldsymbolA1,\boldsymbolA2,
⋯
,\boldsymbolAI,P,\boldsymbolR1,\boldsymbolR2,
⋯
,\boldsymbolRI,\boldsymbolO1,\boldsymbolO2,
⋯
,\boldsymbolOI,γ>表示。在迭代过程中,第 i
个智能体的动作由策略[Math Processing Error]πi=\boldsymbolOi×\boldsymbolAi 决定,其状
态转移函数为[Math Processing
Error]\boldsymbolP:\boldsymbolS×\boldsymbolA1×\boldsymbolA2×
⋯
×\boldsymbolAi×
⋯
×\boldsymbolAI×\boldsymbolS→[0,1],这表明需要由给定的状态和所有智能体的动作决定
下一状态的概率分布。同时,智能体将得到奖赏[Math Processing
Error]Ri:\boldsymbolS×\boldsymbolA1×\boldsymbolA2×
⋯
×\boldsymbolAI→rti 和私有的观察
[Math Processing Error]\boldsymbolOi。每个智能体的目标是最大化获得的奖赏[Math
Processing Error]∑t=0Tγtrti,其中 T 为总迭代次数,t 为当前迭代次数;[Math Processing
Error]γ 为折扣因子,表示智能体对未来奖赏的重视程度。
2.3 状态-动作空间及奖赏
根据 2.1 节所述,本文将使用多智能体深度强化学习方法为跳频异步组网提供更智能
的频谱资源分配方式,智能对抗同频干扰和敌意干扰,提高网络通信质量。定义该马尔可
夫博弈模型中的状态空间由智能体的功率 P 和信源速率 B 构成,则状态集[Math Processing
Error]\boldsymbolst=[\boldsymbolst1,\boldsymbolst2,
⋯
,\boldsymbolsti,
⋯
,\boldsymbolstI],其中
剩余13页未读,继续阅读
资源评论
- mamacita1902024-03-09怎么能有这么好的资源!只能用感激涕零来形容TAT...
罗伯特之技术屋
- 粉丝: 4452
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功