论文研究-区间数决策在无人机攻防博弈中的应用.pdf

所需积分/C币:35 2019-09-13 00:48:54 1MB .PDF
39
收藏 收藏
举报

针对不确定信息下的无人机攻防博弈问题,建立了基于区间数的无人机攻防博弈模型。将态势信息引入支付区间矩阵,重构了支付区间内点的分布并将其转化为四参数区间数。结合信息论提出了一种基于相对熵的目标分配决策模型,提高了对不同策略的区分度。给出了参数不确定优化问题的求解方法,并使用自适应粒子群算法求解了纳什均衡。仿真结果验证了该方法在无人机攻防博弈中的可行性和有效性。
172 017,53(15) Computer Engineering and Applications计算机工程与应用 pa,…pn),每个粒子当前位置所确定方案的决策值为设在作战过程中,进攻方元人机可以随时通过机载传感 M(X2),得到粒子;的当前最优位置公式为: 器或数据链获得相对防御方的各项参数(确定或不确定 P(t),M(X,t+D))<M(P(t) 信总),并依据相关理论实时计算进攻方无人机相对 P2(t+1) X(+,M(XA(+1)>M(P)(10 防御方的优势矩阵,为进一步决策做好准备。 式(10)表示将t+1与t时刻的适应度对比,若t+1时刻 本文假定决策系统已经通过某种途径实时获得优 的适应度较大,则更新粒了最优位置;反之则保留:时势矩阼,并以此为基础做出进一步决策。称优势矩阼为 刻的位置。 白适应粒子群算法的迭代公式为 (t+1) g1c22)4V() X(t+1) S矩阵中的第i行j列个元素:=[m,m,表示 D)进攻方单位对防御方目标/的优势度,表示成端点值 pgi 为 的区间数,且0 <S< (omx-nm)×(M(X)-M(X 31.2支付区间的四参数区间划分 (M(X M(Muir) M(X)≤M(X) (12) 由第2节可知,进攻方支付区间数(gm,gmx)是综 M(X:>MX) 合对抗双方各种信息得到的,但该计算结果并没有考虑 区间内点的分布。实际情况下支付区间数的内点并不 其中m,mm分别表示惯性权重的最大值与最小值; 能简单地看作均匀分布,而应当随着战场态势的变化而 M(X2)表示粒子当前的适应度,在这里用粒子所代表方 变化:对于策略x,当战场态势对进攻方有利时,进攻 案的决策值表示;M(X)g,M(X)m分别表示当前所 有粒子的平均适应度和最小适应度 方的收益必然趋向gmx;反之,则趋于gmn。为了充分 该算法应用的难点在于:本例中计算得到的粒子适发掘优势矩阵的信息,本文将其与支付区间数相结合, 应度为区间数,不是通常情况下的实数,因此需要一种 将支付区间数转化为四参数区间数 排序方法找出最优粒子。 四参数区间数也被称作梯形模糊数,本文中统一使 31基于战场态势的区问数排序方法 用四参数区间数。首先结合优势度区间数,=[5m, 区间数是一个系统,其有系统性质叫。对于区间数将支付区间数(gm,gm)转换为四参数区间数。设 的比较,不能像实数一样从数量的角度比较大小基丁(gm,sM,s,gm)为四参数区间数,sM、sN按如下公 可能度的排序方法有失效的可能;基于几何距离的排序式确定 方法信息丢失严重。为了弥补这些缺陷,结合信息论 gm=gpir t smin(gmax -gu (14) 与无人机作战决策的实际,这里提出种结合四参数区 8N=gmin +s max(g mex -i (15) 间数与相对熵的排序方法。 3.1.1基于区间数的战场态势评估 式中0<sm<、m<1,保证gmn<M<g<gm则支付 作战决策与战场态势紧密相关,战场态势一般由优区间数的划分如图2所示。 势函数确定,其中包括态势优势函数和效能优势函数两 部分。态势优势函数的自变量包括:角度优势、速度优 势、高度优势和距离优势等。双机对抗时的态势如图 图2四参数区问数划分 1所示 3.1.3基」相对熵的支付区间排序方法 该排序方法的基本思想为:利用信息熵衡量无人机 在不同策略下收益与最高收益(最低收益)的差别程度 优先选择与最高收益差别最小的策咯(或与最低收益差 別最大的策略)。实际情况下,最高收益表示无人机完 成了预定仟务,自身没有伤广;最低收益表示无人机未 能完成预定任务,自身伤亡最大 R,(o) 首先引入 Kullback- Leibler距离的概念。对两个系 统A与B,它们在状态A1与状态B的相对熵"为 图1双机对抗态势图 效能优势函数的自变量包括:机动性、火力、探测目 M, =A, 1b+(1-A,)lb 16 标能力、操纵效能、生存力、航稈和电子对抗能力。假式(16)的单位为比特,对数底数取2。 孙楚,赵辉,王骁飞,等:区间数决策在无人机攻防博弈中的应用 2017,53(15)173 为了克服式(16)在B:=0或B1=1时无意义的情无人机未完成任务且自身损失最大情况下的收益。在 况,改进的相对熵公式为 实际中,可令最高收益与最低收益从区间数退化为实 H: =A,16-4 1-4 1/2A:+B) (1-A)b 1242)(17)数以简化计算,也可依据决策者的立观意愿确定收益 区间 其中H1越小,则两系统状态A和B:的差别越小。式 步骤2计算每个攴付区间的相对熵dm与m (17在特定的属性下衡量了两系统相对的信息熵,当相 指标权重ω;依据决策者的主观意愿选取,四个权重分 对信息熵为零时,表示两系统在特定属性的评价标准下别代表区间内点对于决策值的贡献,反映了决策者的偏 是完全相同的。 好,ω偏大表示狡“乐观”的期望;ω;偏大表示较“悲 定义3对两个四参数区间数a=a,a",a",a"]与观的期望。满足 b=[b,b,b,b],和b的相对熵可定义为 (21) 1a,b)=o, a, 1b1 1/2a1+b,) 步骤3按式(20)计算每个粒子的相对贴近度C 步骤4依据相对贴进度对粒子进行排序,选出最优 (18 1/2a:+b) 粒子进行下一次更新。排序原则为优先选择C值最人 其中o为指标权重式(18)对a,b不对称,与实际不的方案;当C的值相同时选挥dm值较小者 符,因此定义两个四参数区间数的相对熵距离为: 3.2不确定信息下纳什均衡的求解步骤 Da,b)=I(a,.b)+1(2,a) (19) 依据上文中的区间数排序方法,即可结合自适应粒 式(19)具有如下性质 了群算法求解不确定信息下的纳什均衡。在评价粒子 性质1D(a,b)≥0,当且仅当a=b时等号成立 位置时,首先确定最高收益与最低收益,引入态势信息 性质2D(a.,b)=Db,a) 将目标支付函数按式(14)(15)转化为四参数区间数,再 其屮性质2显然成立;由相对熵的非负性可知使用式(20)计算相对贴近度,最后排序以更新粒子的 a,b)≥0,这里给出性质1等号成立条件的证明。 位置。 证明对任意J,有: 具休步骤为 1:=a1lb;/+(1-a; 1 步骤1参数初始化,随机生成粒子的位置与速度。 +b) 1-1/2(a:+b 步骤2按式(20)计算每个粒子的相对贴近度,作为 1/2a;+b, 1-1/2a1+b) 适应度值 , 步骤3依据适应度值选出每个粒子经历的最好位置。 f(x)=lb(x)为凹函数,由 Jensen不等式,可得 步骤4将每个粒子的适应值与仝局所经历的最好 1/2a2+b,) +(1-a 1-1/2a2+b 位置的适应值相比较,确定全局最优粒子。 步骤5根据式(10)更新粒子的速度和位置。 lb(1)=0 步骤6如果达到最大迭代次数则停止,否则返回步 当且仅当a1=b时等号成立,故16)=0。同理可讲当骤2,如图3。 且仪当a;=b时,1(b,a)=0,故性质1成立 开始 设方案i的收益与最高收益的相对熵为dm,与最 低收益的相对熵为dhm,均由式(19)计算。方案i的收 初始 益相对贴近度可表示为 评价粒子 态势信息 ;= (20) 更新粒子 依据C即可对方案进行排序。决策时优先选择C 值最大的方案;当C2的值相同时,选择d值较小者。 达到迭代次数? 3.1.4基于相对熵的支付区间数排序步骤 结束 使用自适应粒子群算法求解时,评价粒子阶段需要 从各个粒子中选出最优粒子进入下一次更新,其中粒子 图3算法流程图 的评价按以下步骤进行。 4案例分析 步骤1依据无人机的任务确定最高收益[gm,m 设双方均处于对方的导弹射程之内,并且不考虑目 gmgm、与最低收益lgim, gmin:gain, gminI,其中gm为标防护性,武器命中即能摧毁目标。博弈开始时双方的 无人机完成任务且自身没有损失情况下的收益;gm为战场态势如图4所示。 174 017,53(15) Computer Engineering and Applications计算机工程与应用 表2进攻方策略表 编号 策略 √B (R1,BR2, B2)R3, B3) 5 (K,b1)R2 B1)R ,B:) B=(R2,T) 3(RI, B2XR2, BI(R3, B3)7 (R1,B2)R2 B2).R3, B3) 4 (R1, B2(R2, B1XR3, T')8(R1,B2XR2,B2XR3,T 表3防御方策啗表 高度B1 策略 编号 策略 R?R3 1(B1R1B2R2B3R2)6(B,R3B2,R2)B3,R) R 2(B1.R1B, R3)B:R2)7(B,RiB,,RiNB2,R 图4战场态势图 (,,R2XB2, R1)B3, R3)8(B, R2)B2, R2)(B, R,) 本案例的各个作战单位没定如表1所示 (B1RXB2RXB3RD9B,R2)B,R3B,R 表1作战单位设定 (B1.RXB2.R1B3.R2)10(B1,R3)iB2,R3)B3,R2) 表4单位价值 气类型单位 武器 信 进攻方R,R,R空对空堂对地导弹、确定 单位名称价值单位名称价值 防御方B1,B2 空对空导弹不确定 进攻方UCAV 2000 进攻方导弹 100 防空阵地 地对空导弹不确定 防方UCAV190001御方空空导弹10020 无 不确定 防御方防空阵地300,3500地空导弹 [300,350 [5000,5500] 进攻方的两架UCAV型号相同,其中R1,R2各携 带一枚空对空导弹,只能攻击空中目标;R携带两枚空应的态势并直接给出计算结果。进攻方与防御方在各 对地导弹,只能攻击地面目标。由于本决策案例是从进个策略下的武器命中概率用矩阵Pk,PB表示。 攻方角度考虑的,故认为进攻方的价值为确定信息,以 0.611,0.694][0.718,0.753][0.000,0.000][0.000,0.000 [.68073410.65067410.000000 实数表示。 00,0000.000.00010.871,0.880.9080.934 防御方B1,B2各携带·枚空对空导弹,只能攻击 0.631,0.655][0.620.0.646]0.623,0.634 空中目标:防空武器B3可发射一枚地空导弹,只能攻击 0.579,0.584][0.563,0.592][0.685,0.712 空中目标;工厂T没有其他的防护武器;防御方的目标PB 0797,08191106700.73610.756,0.789 价值均为不确定信息.以区间数表示 000000000000 设武器的最人齐射数为1,定义双方各单位可采取其中p,PBs分别表示进攻方单位对防御方单位j、 的策略为:{攻击,规避},则双方的策略集为其各个单位 选择策略的排列组合,除去明显无意义的策略.如¨全部 防御方单位j对进攻方单位i的命中概率区间。为便 于处理数据,山于武器类型不匹配而无法攻击的策略川 单位均选择规避”、“防御方选择规避”、“防御方不攻击 区间数0.00,0.000表示 R3”、“R3攻击空中日标”等,进攻方的策略可以表示为 各单位的态势优势知阵S为 {x1,x2,…,x8},防御方的策略可表示为{y,y2,…,yn} 0.483,0.52810.604,0.612J0.405,0.4400.516,0.572 以表2、3表示 S=105105331091057060464c512 4.1初始参数设定 0.530,0.5770.47,0.4860.735,0.7500.843,0.862 各个单位的价值信息如表4所示。 42仿真结果分析 这里采用文献[19中的空战态势评佔模型计算相 由式(4)计算支付矩阵,计算结果为矩阵G。 81.3,1316.1,1566,1772.1[909.6,1260.9,1410.3,1638.4]571.6.902.2.1211.,1406.4][477.6,767.8,1132.7,1290.4][937.6,1303.5,1574.2,1736 723.5,3031.4.3340.8,3544.4]2651.6.2813.2.3207.3,3410.4][213.6.2912,3054.7,3178.4][2219.5,2561.8,286.4.3062.4][2679.5,3028.5,3325.2,3508.4] [2906,3197.3,3672,39426][28343296,3600.3808]2496,2996,3336,7,3576.6][2402,2858.3,3225.6,3460.8](2862,3324.8,3751,3906.5 [1164.1496.22030.5,2170.6][1092.1499.1.1784.4.20361754,1235.2.1697.4,1804.6][60.1024.1.1562,21346]1120.1501.51861.7,21346] G2112021519818306.2074810.132217234190879211694.1632517188 98929.6,1420.9,16028」1158,1375.4,1790.5,20488」 [2944,3380.3,3627.7,3856.8][2872,3094.9,35075,372282534.3133,3358.8.3190.812240,2756.2,30598.3375.81[290,3313.8,3629.5,382 943.5,14631,1509.7,15.2[871.6,141096,161.9,1724菜3:,6,1101,12552,14922][:35,101.1,125.4,1492习[89.6,1516,15:7.1,12之 6856,3187.2,33459,3630.2][2613.6,3118.6,3186.6,3495.2][2275.6.28223,3164.4,3264.2][2181.6,2513.1,2881.4,3148.2][2181.6,2513.1,2881.4,318.2 915.5.11821615.2,1754.4][749.6.1103.5.1424.15884[803.6.1042.8,12434.15:0.4]671.6,1055.1.1356.1514.4]925.6.1286.4.1589.1680.4 2657.8,3009.5,33883,3526.4][2491.3,2780,3103.2,3360.4]2545.6.27898,3186833624][2413.6,2740,3165.83286.4]2667.6,3031,3371.6,34524 2843,3179.5, 24.6][2674,3148.36382.37586][2728,335.7,5589.2,3750.6][2593,2813.7,346.3,3684.6][2850.2332,3649.5,3850. 1098,1371.1,19227,2152.6[9g2,1380.2,18442,1986.6986.14244,1752,1988.6]854,13357,1696.6,1912.6][1108,1310.9,19058,2078 135.14227.1795.9.266.8][970.1337.7、1581.5、1900.8[1024,1214.7,1718.3.1928][892.109.9.1443.81726.8][1146,1410.2.1791.3.1992.8 278,3270,35131,3835612712,31.53358.6.3672.S12766,3252.5480.3,367482634,3103.9,3227.43598.812898,34711,3605.2.3764.8 877.6,1284.4,1641.9.1840.2][7116.916.6,1531.7,1674.2[765.6.1201.8.15454,1676.21[63.6,95.1,1342,150.2]887.6,1087,1461.3,1766.2] 12319.6.3:0.5,375,36122124:36,2740.5315.4.3446.22507.6.2852.8.3120.93448212.3456,2578.634:.6,372.22629.33117,330235:8 孙楚,赵辉,王骁飞,等:区间数决策在无人机攻防博弈中的应用 2017,53(15)175 利用白适应粒子群算法与四参数区间数排序方法, 20) 叮以求解双方的混合策略。这里设定a=-,i=l,m,n,u, 1.5 粒子数为100,学习因子取2,最大惯性权重0.9最小惯 性权重0.6;为保证求解速度,最大迭代次数为50。适应 度变化曲线如图5、6所示 0.5 区间数决策值 2.0 可能度方法上下限 1020304050 迭代次数 图8防御方适应度变化曲线 可见在同样的迭代次数下,采用区间数排序的混合 策略均优于基于可能度的排序方法;使用可能度排序的 粒子群算法收敛速度稍快,但由于缺乏态势信息,该方 1020304050 迭代次数 法对于进攻方策略1、3的区分度较低,选择概率分別为 图5进攻方适应度变化曲线 0.249、0.251。原因在于策略1、3中.各个UCN武器命 2.0 中概率的差别较小,且目标价值相同。通过分析态势矩 阵S,R1对B2、R2对B1、R2对B2的态势优势区间 1.5 数分别达到了[0.604,0.612][0.516,0.533],而R2对B2 的态势优势区间数仅为[0.313.03441,显然区间数排序 1.0 的方法的策略更为合理 0.5 分析可能度排序方法,可以发现该方法仅利用了区 间数的端点作为排序依据,信息丢失较为严重,问题中 40 的混合策略求解涉及多区问数排序问题,故对策略的区 迭代次数 分度较差。而本文中提出的基于战场态势与信息熵的 图6防御方适应度变化曲线 区间数排序方法则能够允分发掘信息,较好的避免了上 进攻方的混合策略为(000003694,0.0000.5605,述问题。 000000御方的混合策略为44,的取值分析 (0.3716,0.0000,0.2483.00000,0.000,0.000,0.0970, 现取a1=0.5,a2=0.2 0.1,表示相对 02830,0.0000,0.000)。即进攻方按03694、05605 悲观”的决策情景,计算结果为:进攻方的混合策略为 的概率选择策略2、4,趋向于首先攻击高收益的L厂(0.3112.0000181.00.101858,0003020 T,同时R1对B2、R对B1的命中概率与作战态势均000份方混合策表示为(02348,0003..183 占优势,这与实际是相符的;:防御方按0.371602483、00001000024,03012)。 02830概率选择策略1、3、8,均使用防控导弹B3攻可见进攻方按03120.1381、0.185803020的概率选 击有对地攻击能力的R3,以保证工厂T的安全。 择策略1、3、5、7,这些策胳的共同点是均令R:首先攻 43与基于可能度决策方法的对比 击敌方的防空导弹B3,以保证已方UCAv的安全,而没 使川基于可能度的区间数比较方法替换四参数区有攻击收益较人的工厂T;防御方按02348.01858、 间数排序方法,利用自适应粒子群求解混合策略,并归02724、0.012的概率进择策略1、3、9、10,均利用防空导 化,其适应度变化曲线如图7、8所示。 弹B2攻击有对地攻击能力的R3,以保证工厂T的安全。 2.0 5结论 针对基于不确定信总的UCAV攻防博弈问题,本文 给出了一种基于战场态势信息的评价方法,结合战场态 势信息将支付区间数转化为四参缴区间数,利用相对熵 区间数决策值 可能度方法上下限 计算爷个方案的相对贴近度,从而对区间数进行排序; 1020 最后结合自适应粒子群算法求解纳什均衡。仿真结果 迭代次数 表明,该方法能够充分利川用战场态势信息提高对策略的 图7进攻方适应度变化曲线 (下转180页)

...展开详情
试读 6P 论文研究-区间数决策在无人机攻防博弈中的应用.pdf
立即下载 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
论文研究-区间数决策在无人机攻防博弈中的应用.pdf 35积分/C币 立即下载
1/6
论文研究-区间数决策在无人机攻防博弈中的应用.pdf第1页
论文研究-区间数决策在无人机攻防博弈中的应用.pdf第2页

试读结束, 可继续阅读

35积分/C币 立即下载