为了对二自由度机械臂轨迹进行规划,提出了一种新的动态搜索Q学习算法。该算法不需要建立机械臂的数学模型,直接对轨迹进行规划,根据学习进程动态调整贪婪策略的比例参数,并给出较传统方式更具客观性和公平性的定量策略评价单元。同时,由动态更新机构在线更新学习经验。仿真结果表明,新的Q学习算法能使机械臂更快速地达到目标位置,并实现轨迹全局最优。
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~