论文研究-强化学习在基于多主体模型决策支持系统中的应用 ——以湖泊水环境决策支持系统为例.pdf

所需积分/C币:10 2019-09-20 17:13:42 862KB .PDF
收藏 收藏
举报

论文研究-强化学习在基于多主体模型决策支持系统中的应用 ——以湖泊水环境决策支持系统为例.pdf,  利用研究复杂系统和多主体(multi-agent)建模的相关知识与方法, 将湖泊水环境中的各种实体, 如政府、排污企业以及各种水生生物等抽象为具有一定智能的主体, 建立湖泊水环境智能决策支持系统. 并将强化学习方法应用到智能决策支持系统中, 实现湖泊水污染的智能预测与预警. 最后, 以太湖流
第8期 倪建军,等:强化学习在基于多主体模型决策支持系统中的应用 1779 环境 提取信息 第1类 交互、「主決策类 交互 第n类 agent I agent n 模型车 知识库 方法库 信息练合与分析 作用于环境 决策 图2基于多 agent模型的智能决策支持系统框架 3强化学习在智能决策支持系统中的应用 31基于强化学习的 agent决策结构 强化学习介于监督式学习和无监督式学习之间,其自学习和在线学习的特点使其成为机器学习研究的一 个重要分支.强化学习方法通过与环境的即时父互米获得环境的状态信息,并通过反馈信号对所采取的行动 进行评价通过不断的试错和改进,从而学习到最优的策略12-13 个体agen应用强化学习做岀决策的基本原理是如果 agent的某种策略导致环境的反馈为正反馈,那么 agent以后会增大对这种策略选择旳概率,反之则会减少对这种策略选择的概率.个体 agent应用强化学习 的决策结构主要由感知器(A)、学习器(L)和决策选择器(P)三个模块组成14.个体 agent通过感知器(A) 把对环境(社会环境和自然环境)当前状态8的认知转化为其内部的知识k;决策选择器(P)根据当前对环 境的认识以及所拥有的策略知识,做出决策d,并作用于环境;环境在决策d的作用卜,状态从s变化为s, 并给出反馈r(即对 agent的行为做出奖赏或惩罚); agent学习器(L)根据环境的反馈值r以及内鄙知识k, 更新 agent的策略知识 32基于强化学习的智能决策支持系统工作流程 在棊于多 agent模型的智能决策支持系统中,应用强化学习,可以实现决策的智能化.基于强化学习的 智能决策支持系统工作流程如图3所示 环境 提取信息 主决策类 第1类 感知器A 第n类 agent I agent n 获得知识k 反馈值r 学习器L 决策选择器P 做出决策d 作用于环境 决策 图3基于强化学习的智能决策支持系统工作流程 在图3中感知器(A)主要是 agent对社会环境和自然环境的掌攆,这里用x来表示 agent对环境的总 1780 系统工程理论与实践 第32卷 体认知,用下式表示: a =i, 其中xn表示 agent内部与研究内容相关的具休属性.k为具休的知识,可以表示为 k={k1,k2,…,kn} (2) 学习器(L)的学习材料主要来源于两个方面,包括感知器(A)形成的具体知识k和环境的反馈值r,L 可以表示为:L={r,}.其中环境反馈值表示为 },m≥1 L形成后又同时影响agen的感知器(A)与决策选择器(P) 决策选择器(P)主要受到感知器(A)和学习器(L的影响,可表示为:P-{L,A}.每个 agent通过感 知和学习后所形成的决策空问用d来表示,它是一系列决策的集合,表示为 d={t1,d2,…,dn},n≥ 4仿真实验 本文以太湖流域为硏究背景进行仿真实验,针对太湖流域水污染治理间题建立以多 agent智能决策支持 系统.将太湖水环境中的各种实体,如政府、排污企业以及各种水生生物等抽象为具有一定智能的 agent,将 强化学习算法应用到系统之中,各类 agent通过与环境以及其他 agent的交互,对环境产生影响.政府 agent 在这个决策支持系统中担当主决簧 agent的角色,从环境获取信息,并利用各种模型对水环境系统的演化作 出预测,根据环境的反馈,给出合理的水污染治理方案 4.1太湖水环境多 agent系统模型 在针对太湖水环境污染治理的问题中,主要涉及改府、排污企业和水生生物几类对象,为了简化实验系 统的设计,本文在建立多 agent系统模型时仅以政府 agent,排污企业 agent和水生生物 agent作为研究对 象,其中政府 agent为主决策 agent,对最终决策起决定性作用,它的知识库数据来源于两个方面,包括从太 湖水环境中提取的信息和与排污企业 agent和水生生物 agent交互的信息.为了确定各 agent的模型库,首 先对每类 agent的内部相关属性进行量化处理.具体量化过程如下1 1)对政府 agent中的溺泊水环境治理政策驱动力属性进行量化处理,选择该地区具有代表性的5个指 标为变量因子:总人口数x1、地方财改收入x2、第三产业产值x3、农渔牧业产值4、政策力度5 2)为了便于分析企业行为对湖泊水环境的影响,需对其内鄙污水处理损失费用进行量化处理,这里以印 染企业为例,建立企业环境投入和环境行为影响因素相互关系模型.选择的指标因子为:企业体制r1、企业 规模x2、企业利润3、废气排放量x4、COD排放量x5、固废排放量x6 3)为了便于分析水生物对湖泊水环境的影响(这里主要考虑水质富营养化问题),需对其内部水生植物 中所含矿物质元素浓度进行量化处理,选择的指标因子为:COD浓度x1、TN浓度x2、TP浓度x3 42各类 agent在强化学习算法下的决策过程 在基于多 agent模型的湖泊水环境智能决策支持系统中,政府 agent作为主决策类,需要重点分析,同时 排污企业 agent和水生生物 agent的决策与整个系统的决策过程是紧密联系,互相影响的,因此需要对各类 agent的决策过程进行分析.基于强化学习的各类 agent的决策过程如下 (一)、感知器(A)从太湖水环境提取信息得到具体知识k 不失一般性,这里简化知识的获取过程,定义知识k的基本公式为:k=1+x2+…+xn,应用到各类 ent模型中的具体计算公式为 政府 agent治理政策驱动力kc计算公式为: kG=:0+u1+br2+c;C3+dC4+:5 排污企业 agent内部污水处理损失费kE计算公式为: kc=o +a 1+b22 +c23+dr4 +eas+ fx6 水生生物 agent植物富营养化矿物质总浓度kA的计算公式为 十c2+x 在上述各式中x0是修正量,{a.b,c,d,e,f}是各变量的权重 第8期 倪建军,等:强化学习在基于多主体模型决策支持系统中的应用 1781 参考文献[14,将有关数据代入上述公式(5)}-(7)进行仿真实验,可计算出19962000年太湖水环境中 各类 agent感知器(A)中的k值,如表1所示 (二)、学习器(L)从感知器(A)中获得信息 由概念模型可知,L={r,A},其中为反馈值,k为湖泊多 agent系统中各类 agent根据对环境的感知, 得到的具体知识.反馈值γ可用湖泊水环境改善的综合效益来计算: /(yG +yE-yA TE=yE/(G+yE+9A (8) TA=3A/G+yE+yA 式中,表示某类 agent对水环境作用后的反馈值;y为对每类 agent的量化值进行均一化处理所得到的值, 即:vi=k;/max(k),在实际决策过程中,反馈值γ都为正数,通过比较r值的大小来进行决策,值越大,对 湖泊水环境中各类 agent决策的影响作用越大.由公式(8)得出各类 agent学习器(L)中r的具休值如表2 所示 表11996-2000年各类 agent的k值 表21996-2000年各类 agent的r值 年份 k值 年份 ke r A 1996 7 0.895 7.43 1996 0.20 0.39 0.41 1997 0.6187.52 1997 0.25 0.28 0.47 1998 15 0.967 6.71 1998 0.35 0.35 .3 1999 12 0.793 7.69 0.31 0.32 0.37 2000 13 0.612 7.70 2000 0.35 0.25 0.40 (三)、决策选择器(P)从学习器(L)中获取信息 这里将决策选择空间表示为:d={dle,dE,aA},其中de起主导作用,分析da、dE、d4三个值,如果 d值降低,则政府 agent需要对自身內部相关属性的大小做出相应的调整,以此对排污企业 agent和水生生 物 agent进行干涉(例如调整排污费的收取比例等等),以便使湖泊水环境得到进一步改善.由强化学习概念 模型中P={L,A}得出最终决策值d为:d=(;+k)/k,将k值统一到相同数量级后,该公式变为 d=(r;+y)/v具体计算公式为 (rG+yG)/yG di=dE=(TE+yE)/yE d A=(r+31)/3A 由公式(9)得出1996-2000年各类 agent决策选择器(P)中a的具体值,见表3所示,d值的变化趋势如图 4所示 表319962000年各类 agent的d值 年份 d值 d 1996 1.41 1.43 1997 1.44 1.48 1998 1.3 1.35 1.34 1.37 2000 1.40 1.39 1.40 基于多 agent模型的决策支持系统通过政府 agent根据决策选择器(P)中决策值d的变化,对太湖流 域排污企业进行管理.政府 agent通过感知器(A)对现有环境进行感知、学习,并与其他 agent交互信息, 利用反馈值γ不断修正决策值a,并给岀合理的水污染治理决策方案.由图4可以看出,1998年前排污企业 agent的决策值dE一直略低于其他两类 agent的决策值,1998年后政府 agent决簧值dg大幅度提高,排污 企业 agent的决策值d也随之有所提高,说明政府 agent通过调幣其内部政策驱动力属性值,加强与其他 1782 系统工程理论与实践 第32卷 75 1.55 l.45 1.35 19961997199g19992000 年份 图41996-2000年各类 agent的d值变化趋势图 agent信息交互对大湖流域排污企业进行有效整治管理.事实表明,随着工业生产的迅速发展,有些企业为 追求利润最大化,对太淘水环境的保护采取消极态度,以致太湖整体环境遭到破坏.山于太湖水环境遭受的 污染程度愈加灬重,国家环保局1998年制订了终零点行动”方案,并关闭∫所有向太湖水域排放污水的污染 源.不久“零点行动”方案发挥功效,太湖水环境得到了有效改善.上述实际的水环境决策与演化过程和本实 验结果基本一致,从而有效说明了该方法适用于湖泊水环境智能决策与管理 5结束语 湖泊水环境系统是一个复杂系统,有企业、政府等社会主体的参与,是一个社会、经济、环境系统的集 合,对这样系统的建模,并进行水污染灾害预测与预警,必须进行跨学科的综合研究.本文首先通过 agent概 念来抽象现实中繁多的客观主体,建立基亍多 agent模型的湖泊水环境智能决策支持系统,使得模型更加简 单化、具体化,可操作性提高,并将强化学习方法应用到多 agent决策支持系统中,可以实现决策值的智能计 算,通过对主决策 agent决策值的分析,进行预测预警,并做出合理决策.同时可以根据以往的数据推测出现 有决策是否合理,是否需要做出调整,从而大大提高∫决策系统的智能性 综上所述,强化学习应用到多 agent智能决策支持系统是可行的,将这种方法应用在湖泊水环境智能决 策支持系统中具有重要的理论硏究意义和实际推广价值,下一步的工作重点是进一步完善湖泊水环境系统的 多 agent模型,并对智能决策支持系统进行改进利升级 参考文献 1]刘永,郭怀成,范英英,等.湖泊生态系统动力学模型研究进展小.应用生态学报,2005.16(6):1169-1175 Liu Y, Guo H C, Fan Y Y, et al. Research advance on lake ecosystem dynamic models[J]. Chinese Journal of Applicd Ecology, 2005, 16(6):1169-1175 2 Ni JJ, Zhang C B, Ren L. An intelligent decision support system of lake water pollution control based on multi-agent model(C// Proceeding of International Conference on Computational Intelligence and Security, New Jersey: IEEE Computer Society, 2009: 217 221 3]毛国柱,刘永,郭怀成,等湖泊富营养化控制技术综合集成方法框架[J.环境工、2006,24(1):6567 Mao g Z, Liu Y, Guo H C, et al. Comprehensive integration of lake eutrophication control technique ronmental Engineering, 2006, 24(1):65-67 4 Sasikumar K, Mujumdar PP. Fuzzy optimization model for water quality management of a river systemJ Journal of Water Resources Planning and Management, 1998, 121(2):79-88 5]程春田,欧春平.流域防洪决策支持系统集成管理!.大连理工大学学报,2001,41(1):108-111 Cheng C T, Ou C P Integrated management of decision-support system for flood control of river basin[J. Journal of Dalian University of Tcchnology, 2001, 41(1):108-111 6 Huang G H, Sun W, Nie X H, et aL. Development of a decision-support system for rural eco-environmental management in Yongxin County, Jiangxi Province, ChinaJ]. Environmental Modelling Software 2010, 25(1) 2442 7]玊寰敏,佟金萍,马小平,等基于CAS范式的流域水资源配置与管理及建模仿真[J.系统工理论与实践,2005,25(12): 11913 Wang H M, Tong J P, Ma P, et al. Complex adaptive system(CAS)-based allocation and management of river basin water resource[J]. SysteIns Engineering- Theory Practice, 2005, 25(12): 119-137 第8期 倪建军,等:强化学习在基于多主体模型决策支持系统中的应用 1783 8 Tian J, Wang Y L, Li H Z. ct al. DSS dcvclopmcnt and applications in ChinaJ]. Dccision Support Systems 2007,42(4):20602077 ⑨]倪建军,徐立中,干建颖.基于CAS理论的多 Agent建模仿真方法研究进屐!J.计算机T程与科学,2006,28(5):83 iJJ, Xu L Z, Wang J Y. Advances in multi-agent modeling and simulation based on the CAS theoryJJI Computer Engineering Science, 2006, 28(5):83-86 10 Monticino M, Acevedo M, Callicott B, et al. Coupled human and natural systems: A multi-agent-based ap proachJ. Environmental Modelling &z Software, 2007, 22(5):656 663 1廖守亿,戴金海.复杂适应系统及基于 Agent的建模与仿真方法[J.系统仿真学报,2004,16(1):113-117 Liao S Y, Dai J H. Study on complex adapt ive system and agent-based modeling &z simu lation[J.Journal of System Simulation, 2004, 16(1):113-117 「12陈宗海,杨志华,王海波,等.从知识的表达和运用综述强化学习研究卩控制与决策,2008,23(9):962975 Chen Z H, Yang Z H, Wang H B, et al. Overview of reinforcement learning from knowledge expression and handlingJ. Control and Decision, 2008, 23 (9 ):962975 13高阳,陈世福,陆鑫强化学习研究综述小.自动化学报,2004,30(1):86-100 Gao Y, Chen S F, Lu X. Research on reinforcement learning technology: A reviewJ. Acta Automatica Sinica, 2004,30(1):86-100 14王涛,陈海,白红英,等基于Agnt建模的农户土地利用行为模拟研究—以陕西省米脂县孟岔村为例J.自然资源 学报,2009,24(12):20562066 Wang T, Chen H, Bai HY, et al. Agent-based modeling of simulation on households land-use behavior-A case of Mengcha village of Mizhi County in Shaanxi province[J]. Journal of Natural Resources, 2009, 24(12) 2056-2066. 15]贤金,王腊春,高超,等.太淜水资源水环境研究M].北京:科学出版社,2008 HuangX J, Wang L C, Gao C, et al. Taihu Lake Water Resources and Water Environment Research M. Beijing Science Press. 2008

...展开详情
试读 7P 论文研究-强化学习在基于多主体模型决策支持系统中的应用 ——以湖泊水环境决策支持系统为例.pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
    抢沙发
    一个资源只可评论一次,评论内容不能少于5个字
    weixin_38743481 你的留言是对我莫大的支持
    2019-09-20
    • 至尊王者

      成功上传501个资源即可获取
    关注 私信 TA的资源
    上传资源赚积分,得勋章
    最新推荐
    论文研究-强化学习在基于多主体模型决策支持系统中的应用 ——以湖泊水环境决策支持系统为例.pdf 10积分/C币 立即下载
    1/7
    论文研究-强化学习在基于多主体模型决策支持系统中的应用 ——以湖泊水环境决策支持系统为例.pdf第1页
    论文研究-强化学习在基于多主体模型决策支持系统中的应用 ——以湖泊水环境决策支持系统为例.pdf第2页
    论文研究-强化学习在基于多主体模型决策支持系统中的应用 ——以湖泊水环境决策支持系统为例.pdf第3页

    试读已结束,剩余4页未读...

    10积分/C币 立即下载 >