论文研究-基于RBF-Q学习的多品种CSPS系统前视距离控制 .pdf

所需积分/C币:9 2019-08-14 16:23:41 329KB .PDF
10
收藏 收藏
举报

基于RBF-Q学习的多品种CSPS系统前视距离控制,杨羊,唐昊,研究一类多品种工件到达的传送带给料加工站(CSPS)系统的前视距离(Look-ahead)优化控制问题.在工件品种数增加的情况下,系统状态规
山国武技论文在线 任缓存库为满时,站点直接从满的缓存库取·个工件进行加工,此吋前视距离为 故系统不会出现多个缓存库为满的情况。 定义和分别为品种工件缓冲库的容量和空余量,其中 为 工件品种的个数。=( )为系统状态,由各缓冲库空余量联合组成。记为 在=( 状态下 采取的前视距离行动。特殊情况下,当所有缓冲库都为 空时,系统状态为=( ),站点会一直等待直到第一个工件到达捡取点,并 将其捻取到相应缓冲库中 x;当存放品种工件缓冲库为满时,系统状态为 },则站点直接从品种缓冲库中取出一个工件 进行加工,并放入成品库, 。其他一般情况下 米取的行动∈,其中 (],为系统的行动空间。(为最大前视距离行动) 假设系统当前控制策略为,系统的状态演变过程表示为 初始决策时刻 在第个决策时刻,系统状态=(…),以下简记为,采取行动 ,以下简记为。若在前视距离内至少有一个工件到达,则等待工件到达捡取点 并捡取,记第一个到达的工件品种为,到达时间为s,那么下一个决策时刻为 +=+5,下一时刻状态为+=( }。若在前视 距离内没有工件到达,则从相对空余量最小的缓冲库中选取一个工件进行加工,记选取 的工件为品种,令服务时间为x,则下一个决策时刻 },下一时刻 状态为=( ∈ 今 +)表示在行动下系统从状态转移到下状态+的期望代 价函数, ←,由L件的存储代价、加L代价、系统等待代价、和加报酬组成 定义在策略下系统无穷时段平均性能代价为 7=∑(,) 多岀种系统优化的目标就是找到一个最优策略,使得系统的无穷时段平均性能 代价n最优 学习网络 多品种系统具有离散状态规模庞大、行动连续的特点。其离散状态空间是由所有 缓存库状态联合确定,离散状态规模与缓存库个数和缓存库容量有确定的关系,即状态个数 +)* 是假设中不存在多个为满的状态个数。通常 的优化方法公存在一些缺点,例如理论求解算法不仅模型参数难以完仝获取,转移概率函数 也很难建立。采用离散化方法,需要选择一个离散粒度∧对连续行动进行离散,离散行动 Δ+,需要用査询表存储所有的离散行动及状态行动对信息,内存资源消耗 山国武技论文在线 巨大,计算量异常复杂。并且离散粒度难以控制,如果量化不当会严重影响系统的优 化性能。 年 和 提出了径向基函数( )神 经网络,由于网络具有优秀的逼近能力和泛化能力等特点在函数逼近中得到广泛的 应用 因此本文将网络与学习算法结合,解决多品种系统前视距离连续 变量的优化控制问题。 网络结构 利用网络逼近值函数的络结构如图所小,该网络为层组织结构 Layer2 Layer3 1>○ q M (x d ux,%u) (x 图 学习网络结构 第一层为输入层,该层共有+个神经元,每个神经元对应一个输入分量,其中前 个分量为多品种系统的状态变量=(…),最后一个分量是在该状态下的行动 c记网络的输入为 )即状态行动对。 第二层为隐层,该层共有个节点,每个节点为十维高斯函数,对应第一层 维输入,第个节点函数输出表小为 式中和σ分别为第个节点函数的中心和宽度。 第三层为归一化层,与隐层对应为个节点,对规则进行归一化操作,有 () 第阳层为输出层,该层只有一个节点,用于暹近状态行动对值函数,第个隐节点与 输出节点的连接权值为,网终输出为 ()=∑頓()( 从上面给出的四层网络结构,只要输入当前的系统缓存库的状态和对应的行动, 就可以输出该状态行动对的值。除了前文提到的特殊情况(存在任意一品种缓存库为满 或者缓存库全空)行动唯一,在与环境的交互学习中,行动的选择根据所学的值函数按 山国武技论文在线 定策略给出。在系统状态为=( 时,选择的贪婪行动 为: 网络输入的最后一个分量为行动变量即 在知道当前状态 )时,可以令 是一个常数项,于是有 行动探索对学习来说是非常重要的,特别是在初始阶段,为了平衡学习过程中对行 动的探索与利用,本文采用E· 贪婪策略,即在当前状态=( )下,采取的 行动以£的概率选择随机的探索行动,以ε的概率选择贪婪行动 。本文仿真 实验中探索概率ξ是随着学习步长按一定曲线衰减,式给出了具体曲线参数,这里 yn=-(ε),ε=表示初阶段始探索率, 表示中期阶段探索率, 表示总的学习步长。 C a(-y2(-) 网络参数学习 神经网终结构一般需要根据网络的输出与目标函数或者目标样本之间的误差,来调整网 络的参数。由于在学习当中,是没有确定的目标样本可供学习,需要通过与环境的交互, 通过环境的变化来获得相应状态行动对的值误差,以值误差作为与日标输出的误差来 调整网络参数,实现倌函数的逼近。假设 系统在运行时刻,状态为,采取行 动转移到下状态+,可以观测到个转移样本轨道< +Oz>,O为系 统状态转移过稈中实际的逗留时间,τ为在服务工件过稈中的加工时间。根椐文献,转 移过程的即时差分公式 式中 ,显然()=,a为折扣因子,a>;n是平均代 山国武技论文在线 价η的估计值; +为系统从时刻到+时刻转移过程中的累积折扣代价, 系统进行工件掄取时: 式中表示单位时间存储品种工件代价,表示单位时间站点等待代价。系统进行 工件加工时: la )+(,(o)-(z) 式中衣示单位时间加工品种工件代价,衣示加工完成品种工件的即时报酬 为一个负数 基于式()的即时差分,利用榜度下降法进行可调参数学习包括隐层单元各个基 函数的中心、宽度以及隐层至输岀层之间的连接权值。结合式 可得各参数的更新 公式如 。式中γ、γ、γ。分别为权值学习速率、中心学习速率和宽度学习速率 在区间()内取值,为衰减常数。 (+)=()+y() (+)=a()+。()(-p) 这里有一个特殊情况,即系统当前时刻状态为所有缓存库为空=( 前视距离为=∞吋,无穷大作为网络输入会引起网络不稳定,于是对该状态行动对的 值进行单独存储与学习更新,式给出其更新公式,式中y为学习步长 面给出 学习算法的详细流程如表所示 表 学习算法 山国武技论文在线 初始化网络权值、中心、宽度σ、学习步数以及学习率y、γ和γ 在时刻,观察得到当前系统状态,若为一般状态,转;若为特殊状态, 转 在当前状态下,通过式计算出贪婪行动 ,根据当前£ 策略,以E 的概率选择贪婪行动 ,以G的概率选择随机的探索行动,系统转移到下 实际状态+,转 直接执行相应的行动,系统转移到下一实际状态+,转 已录系统留时问ω及服务时间τ,通过式子通过式计算出即时差分; 若为所有缓存库仝空状态,根据式更新该状态行动对值;否则,根据式~ 更新网络参数权值中心和宽度G +若>,结束学习;否则转 实验结果 为了充分比较学习算法与 学习算法在多品种 系统的优化性能,本文分 别取品种数 和 种情況进行对比。仿真实验中,站点的前视距离作 为系统的行动,本身是一个连续变量。而在用传统学习算法时进行系统优化时,需要对 行动进行离散化,离散粒度选择的好坏对优化的效果影响很人,并且离散粒度的选择没有任 何的先验知识或指导原则。因此为了选择一个合适的离散粒度,需要先对各品种数情况下分 别进行不同离散粒度的仿真实验。本文以品种数 时为例,分别取离散粒度A为 四种情况进行比较,在仿真时,涉及到的关于 系统的参数有缓存库 的容量、各品种的工件到达率λ及服务率,需要保证这些参数相同。设站点加工 品种工件的时间服从服务率为的阶的 分布,缓存库容量的设置符合实验室 生产线的实际情况和最优缓存库容量配比 时,设置的参数如表所示。根据前 文的假设,缓存库不存在同时多个为满的情况,所以此时系统的状态总数 表 相关参数设置 参数 值 图给出在表二的参数下的仿真结果,纵轴表示当前值表下贪婪策略的平均性能代 价的评估值,评估时进行次独立实验,每次独立实验时系统仿真运行 步,然后取 统计平均值。设定离散粒度时总学习步数 和 时总学习步数 离散粒度情况下总学习步数 。图离散粒度优化曲 线学习速度的比较快,平均性能代价在左石。并且随着离散粒度的减小,曲线的学习速 山国武技论文在线 度变慢,优化精度提高。本文在给定仿頁参数卜,综合最后的优化结果与收敛速度来看, 时,图离散粒度是较优的选择,在学习步数 左右后,平均性能 代价基本稳定在一个范围内,此时n 温 Y中和产种个的时啊 学习步数 学习步数 △ △二 小e小本路州 2FN中当中以品中体 学习步数 学步数 △ △ 图 时不同离散粒度学习平均性能代价 衣给出了在品种数 时的系统相关参数,此吋系统状态总数 与=时一样先进行学习算法在不同离散粒度仿真 结果比较,选择一个较优的离散粒度,因为过程的重复性,这里省略了比较仿真结果,图 给出了综合比较后较优的一个学习优化曲线,该离散粒度∧=。设定总学习步数 ,在学习步数 左右后,平均性能代价基本稳定在 表 相关参数设置 值 山国武技论文在线 学步数 图 时学习平均性能代价 表给出了品种数 时相关参数,此时系统的状态总数为 。同样,选择了综合比较后·个较 优离散粒度Δ 对应的学习算法优化曲线如图所小。设定总学习步数 在学习步数 左右后,平均性能代价基本稳定在 77 表 相关参数设置 参数 值 学习曲线 学习出线 学曲线 的却一个产售平时时 学习步数 图 时学习平均性能代价 图不同品种数下 学习平均性能代价 以上是三种不同品种数情况卜,经过多次不同离散粒度仿真实验后选择一个较优离散粒 度的学习算法的优化曲线。对应」上面表格给出的系统参数,图给出了不同品种数情 况下, 学习算法的平均性能代价优化曲线,在 和 时设定总学习步数 ,即算法每步进行一次当前贪婪策略的评估。在 时设定总学习步数 ,即算法每步进行一次当前贪婪策略的评佔。从图中可以看出,=时 在学习步数 学习算法平均性能代价稳定在η 时,在学习步数=后,平均性能代价基本稳定在= 山国武技论文在线 时,在学习步数 后,平均性能代价基本稳定在n= 综上结果可以看出,学习算法和 学习算法对多品种系统都能有一个很 好的性能优化,提高系统运行效率 学习优化曲线整体下降平稳,波动较小,收敛 速度较快。在优化性能方面, 学习比学习平均性能代价要好%~%,这体 现了连续变量控制的优势 图给出了两种算法在不同品种数情況下收敛时的学习时间不包括评估的时间和系统 状态规模,可以看岀,随着工件品种数的增加,系统状态数昰指数増长的趋势,状态规模复 杂。相应地,学习算法的优化曲线收敛的学习时间有显著增加的趋势,这与学习需要 用表格存储全部状态离散行动和状态行动对的值信息有关。而 学习算法优化曲线 收敛的学习时间仅微增加,并且收敛时间远远小于学习,这很好地体现了网络的 泛化能力强、学习速度快的特点。 系晚状态规樸 不同品种数 不司品种数 图不同品种数下算法收敛时间与系统状态规模 图不同品种数下算法的空间复杂度对比 图给岀了两种优化算法在不同工件品种数情况下空间复杂度的对比情况,从图中可以 看出,随着品种数的增加, 学习算法比学习算法节省存储资源的优势越明显。例 如在 时,学习算法需要存储每个状态行动对的值信息,所需的存储空间为 个,而 学习算法需要存储网络的参数信息,包 括权值、中心和宽度信息,在=时,隐节点数 ,可以计算出所需存储空间为 个,因此大大节省了计算机存储资源。 为了方便,表给出了详细的结果对比,表格中存储规模一栏,学习列出的是需要存 储的状态行动对值信息的表格大小离散粒度取仿真实验中较优的, 学习列出的 是网终院节点数;生产效率一栏定义为系统在时间段内所有品种工件加工数量与到达 工件总数的比倌。可以看到,随着品种数增加,生产效率增髙,这与在工件总到达率相冋情 况下,系统可存最大容量变大,流失工件会相应减少有关。并且在相同品种数下 学习的生产效率略高于学习。 表结果对比分析 收敛步数收敛时间平均性能代价存储规模生产效率 学习

...展开详情
试读 11P 论文研究-基于RBF-Q学习的多品种CSPS系统前视距离控制 .pdf
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
weixin_39840924 如果觉得有用,不妨留言支持一下
2019-08-14
  • 至尊王者

    成功上传501个资源即可获取
关注 私信 TA的资源
上传资源赚积分or赚钱
    最新推荐
    论文研究-基于RBF-Q学习的多品种CSPS系统前视距离控制 .pdf 9积分/C币 立即下载
    1/11
    论文研究-基于RBF-Q学习的多品种CSPS系统前视距离控制 .pdf第1页
    论文研究-基于RBF-Q学习的多品种CSPS系统前视距离控制 .pdf第2页
    论文研究-基于RBF-Q学习的多品种CSPS系统前视距离控制 .pdf第3页

    试读结束, 可继续读1页

    9积分/C币 立即下载 >