没有合适的资源?快使用搜索试试~
我知道了~
文库首页
人工智能
机器学习
DDPG-Continuous Control with Deep Reinforcement Learning.pdf
DDPG-Continuous Control with Deep Reinforcement Learning.pdf
DDPG
强化学习
AI
深度学习
需积分: 16
12 下载量
141 浏览量
2018-06-30
13:17:19
上传
评论
收藏
660KB
PDF
举报
温馨提示
立即下载
关于DDPG强化学习算法的论文~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
资源推荐
资源评论
Continuous control with deep reinforcement learning.pdf
浏览:149
Continuous control with deep reinforcement learning
Continuous Control with Deep Reinforcement Learning持续控制与深度强化学习
浏览:20
我们将深度Q-Learning成功背后的理念与持续的 动作域。我们提出了一种基于确定性模型的无模型算法 可以在连续动作空间上操作的策略梯度。使用 同样的学习算法,网络结构和超参数,我们的算法 稳健地解决20多个模拟物理任务,包括经典 如手推车摆动、灵巧操作、腿部运动等问题 还有开车。我们的算法能够找到性能具有竞争力的策略 与那些发现的规划算法完全访问的动态 域及其衍生物的。我们进一步证明,对于许多
(DDPG中文)Continuous control with deep reinforcement learningCH
浏览:159
(DDPG中文)Continuous control with deep reinforcement learnin 中文版 翻译自用
Deep.Reinforcement.Learning.Han.-.Maxim.Lapan.pdf
浏览:146
Deep Reinforcement Learning Hands-On by Maxim Lapan
改进DDPG算法在自动驾驶中的应用-张斌.pdf
浏览:162
改进DDPG算法在自动驾驶中的应用-张斌
强化学习基础算法介绍+Pytorch代码(相信我,绝对是你想要的)
浏览:176
强化学习基础算法介绍+Pytorch代码(相信我,绝对是你想要的)
CNN+DDPG代码,主要实现了倒立摆的控制
浏览:159
I used the CNN + DDPG realizing inverted pendulum control python3.5 tensorflow + GPU gym环境。 本代码绝无仅有,自己用全连接修改的,输入的图像也是自己画的 其中CNN_1与CNN_2是根据全连接进行改造的 。 CNN_1中是在第二个卷积层的输出中加入Actor网络的输出Policy 。 CNN_2中是在第一个全
Python-PyTorch4强化学习实例教程
浏览:193
PyTorch4 tutorial of: actor critic / proximal policy optimization / acer / ddpg / twin dueling ddpg / soft actor critic / generative adversarial imitation learning / hindsight experience replay
Python-PyTorch基于强化学习实践教程并提供清晰易读的代码
浏览:127
PyTorch基于强化学习实践教程:Deep Q Learning强化学习之旅
Python-深度强化学习PyTorch实现集锦
浏览:82
This repository contains most of classic deep reinforcement learning algorithms, including - DQN, DDPG, A3C, PPO, TRPO. (More algorithms are still in progress)
20190806-10篇经典深度强化学习资料.rar
浏览:40
8.Continuous control with deep reinforcement learning.pdf 9.Asynchronous Methods for Deep Reinforcement Learning.pdf 10.2018-计算机学报-深度强化学习综述.pdf 该篇文章是深度强化学习入门的一篇文章,可以...
Asynchronous Methods for Deep Reinforcement Learning
浏览:5
增强学习 经典算法 A3C 论文摘要: We propose a conceptually simple and...on a wide variety of continuous motor control problems as well as on a new task of navigating random 3D mazes using a visual input.
deep q_learning
浏览:5
4. *Continuous control with deep reinforcement learning*, Lillicrap et al., 2015 5. *Asynchronous Methods for Deep Reinforcement Learning*, Mnih et al., 2016 6. *Continuous Deep Q-Learning with Model-
Reinforcement-Deep-Learning-Continuous-Control
浏览:60
强化-深度学习-连续控制
DDPG_update.py
浏览:5
在原文件的基础上,实现模型参数的保存、读取。不过要注意的是var参数会在开始阶段对动作选取产生影响,把它改为0就好了~~
深度强化学习PPO算法(python)
浏览:144
4星 · 用户满意度95%
基于Tensorflow实现的PPO算法,依赖库:tensorflow-1.4及以上,gym
最全强化学习路径规划Reinforcement-learning-with-tensorflow-master.zip
浏览:142
用强化学习进行路径规划,各种强化学习的算法,适合从一开始进行学习,加实践代码哦
PyTorch-ActorCriticRL:DDPG算法的PyTorch实现用于连续动作强化学习问题
浏览:70
PyTorch-ActorCriticRL PyTorch实现的连续动作actor-critic算法。 该算法使用DeepMind的深度确定性策略梯度方法更新演员和评论者网络,并使用过程在使用确定性策略的同时在连续动作空间中进行探索。 DDPG 是一种策略梯度算法,它使用随机行为策略进行探索(在这种情况下为Ornstein-Uhlenbeck)并输出确定性目标策略,该策略更易于学习。 政策估算
论文研究-基于深度强化学习的移动机器人路径规划.pdf
浏览:199
为解决传统的深度[Q]网络模型下机器人探索复杂未知环境时收敛速度慢的问题,提出了基于竞争网络结构的改进深度双[Q]网络方法(Improved Dueling Deep Double [Q]-Network,IDDDQN)。移动机器人通过改进的DDQN网络结构对其三个动作的值函数进行估计,并更新网络参数,通过训练网络得到相应的[Q]值。移动机器人采用玻尔兹曼分布与[ε]-greedy相结合的探索策略
jax-rl:具有连续动作空间的深度强化学习算法的Jax(亚麻)实现
浏览:89
杰克斯(亚麻)RL 这是强化学习算法的Jax(亚麻)实现:行为克隆该存储库的目标是提供一个简单而干净的实现,以在此基础上进行研究。 请不要将此存储库用于基线结果,而应使用SAC的原始实现。安装安装并激活Anaconda...
MATLAB代码:n阶机械臂单、多智能体控制 关键词:n阶机械臂单 多智能体 单智能体 参考文档: 1.Proximal P
浏览:26
2.《Asynchronous Methods for Deep Reinforcement Learning》 3.《High-Dimensional Continuous Control Using Generalized Advantage Estimation》 仿真平台:MATLAB、SIMULINK 主要内容:采用MATLAB模拟机械臂并...
jax-sac:具有连续动作空间的深度强化学习的软演员关键(SAC)的Jax(亚麻)实现
浏览:16
贾克斯(亚麻)柔软演员评论家 这是的Jax(Flax)实现,。 该存储库的目标是提供一个简单而干净的实现,以在此基础上进行研究。 请不要将此存储库用于基线结果,而应使用SAC的原始实现。 安装 ...
jax_rl:具有连续动作空间的深度强化学习的软演员关键(SAC)的Jax(亚麻)实现
浏览:146
贾克斯(亚麻)柔软演员评论家 这是的Jax(Flax)实现,。 该存储库的目标是提供一个简单而干净的实现,以在此基础上进行研究。 请不要将此存储库用于基线结果,而应使用SAC的原始实现。 安装 ...
ContinuousControl-DeepReinforcementLearning:深度强化学习纳米级的第二个项目
浏览:183
深度强化学习纳米学位-项目2:持续控制 ... 将p2_continuous-control/文件夹的内容p2_continuous-control/复制到udacity / deep-reinforcement-learning存储库的p2_continuous-control/文件夹,并替换或删除
基于改进DDPG算法的机器人路径规划算法研究.pdf
浏览:81
5星 · 资源好评率100%
#资源达人分享计划#
股票买卖最佳时机leetcode-Portfolio-Manager:投资组合经理
浏览:191
股票买卖最佳时机leetcode 使用 Java Spring 的股票投资组合管理器应用程序 如何运行 在项目文件夹(包含此文件的文件夹)中打开终端窗口并键入: java -jar target/FyberChallenge-0.0.1-SNAPSHOT.jar 应用程序应该启动。 如何使用 应用程序从名为“stocks.ser”的文件中读取“股票流”。 这个文件是我在 Dori 确认这个“库存流
股票买卖最佳时机leetcode-DRQN_Stock_Trading:这是论文《FinancialTradingasaGame:ADeepR
浏览:201
股票买卖最佳时机leetcode DRQN 在股票交易中的实施 背景 深度循环Q网络 论文使用的模型称为深度循环 Q 网络(DRQN)。 它是一种将循环网络层添加到原始 DQN 的模型。 Q-learning 背后的主要思想是,如果我们有一个函数 Q∗:State×Action→ℝ。 这可以告诉我们我们的回报是多少,如果我们要在给定状态下采取行动,那么我们可以轻松构建一个最大化奖励的策略: 然后,
股票买卖最佳时机leetcode-DDPG-portfolio-management:建立DDPG模型并在股票市场上进行测试
浏览:96
股票买卖最佳时机leetcode DDPG-股市-测试 建立DDPG模型并在股票市场上进行测试 参考 原始论文中的代码 环境的灵感来自 DDPG 实施的灵感来自 数据集 15份2018年1月1日至2018年10月29日的股价数据,以分钟为单位记录,具有开盘、收盘、高、低、成交量特征,下载自,BATS全球市场。 基本设置 该操作包含现金头寸、15 只股票的多头头寸和 15 只股票的空头头寸。 每分钟
ddpg-crawler:修改后的DDPG解决方案,用于Unity-ML Crawler环境
浏览:164
ddpg-crawler 针对Unity-ML(Udacity) 环境的PPO强化学习解决方案。 介绍 环境 爬行者是一种具有4条手臂和4条前臂的生物,需要学习如何站立和向前行走而不会摔倒。 该环境有12个代理,每个代理都通过20个连续动作来控制发狂者的关节和头部的目标旋转。 该状态由129个浮点值组成,分别表示每个肢体的位置,旋转,速度和角速度。 入门 要设置您的python环境并在此存储
评论
收藏
内容反馈
立即下载
资源评论
资源反馈
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~
联系上传者
评论
秋之菌
粉丝: 29
资源:
10
私信
上传资源 快速赚钱
我的内容管理
展开
我的资源
快来上传第一个资源
我的收益
登录查看自己的收益
我的积分
登录查看自己的积分
我的C币
登录后查看C币余额
我的收藏
我的下载
下载帮助
前往需求广场,查看用户热搜
最新资源
全国2013年1月自学考试软件开发工具试题.doc
BC26-NB模块发送传感器数据.zip
BC26-串口1-RS485传感器透传.zip
全国cad大赛试题.doc
全国计算机等级考试二级C语言笔试试题及答案(4-选择题).doc
医用多远统计学-logistic回归.pdf
大一linux常用命令大全笔记
kouzhao-main数据库课程设计
塑料瓶检测图片素材集合30张
DmJdbcDriver18.jar
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功