没有合适的资源?快使用搜索试试~ 我知道了~
p3_collaboration
共207个文件
py:161个
png:25个
md:12个
需积分: 5 0 下载量 194 浏览量
2021-03-11
05:59:53
上传
评论
收藏 3.65MB ZIP 举报
温馨提示
项目3:合作与竞争 介绍 对于此项目,您将在环境中工作。 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或将球击出界外,则其获得的奖励为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 该任务是情节性的,并且为了解决环境,您的特工必须获得+0.5的平均分数(在两个特工均取得最高分后,连续100次以上)。 具体来说, 在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个代理商的得分。 这将产生2个(可能不同)的分数。 然后,我们取这两个分数中的最大值。 这为每个情节产生一个单一的分数。 当这些分数的平均值(超过100集)至少为+
资源推荐
资源详情
资源评论
收起资源包目录
p3_collaboration (207个子文件)
.gitignore 2KB
Tennis.ipynb 8KB
Soccer.ipynb 8KB
Lab_Questions 504B
README.md 6KB
gail-result.md 3KB
README.md 2KB
README.md 2KB
README.md 1KB
README.md 893B
README.md 833B
README.md 629B
README.md 532B
README.md 504B
README.md 301B
README.md 283B
humanoidstandup-training.png 684KB
walker2d-training.png 629KB
humanoid-training.png 538KB
hopper-training.png 534KB
halfcheetah-training.png 504KB
HalfCheetah-unnormalized-stochastic-scores.png 52KB
HumanoidStandup-unnormalized-stochastic-scores.png 49KB
Hopper-unnormalized-stochastic-scores.png 48KB
Walker2d-unnormalized-stochastic-scores.png 47KB
Humanoid-unnormalized-stochastic-scores.png 46KB
HumanoidStandup-unnormalized-deterministic-scores.png 45KB
Humanoid-unnormalized-deterministic-scores.png 43KB
HalfCheetah-unnormalized-deterministic-scores.png 43KB
Hopper-normalized-stochastic-scores.png 42KB
HalfCheetah-normalized-stochastic-scores.png 41KB
Walker2d-normalized-stochastic-scores.png 41KB
HumanoidStandup-normalized-stochastic-scores.png 40KB
Humanoid-normalized-stochastic-scores.png 40KB
Walker2d-unnormalized-deterministic-scores.png 38KB
Humanoid-normalized-deterministic-scores.png 35KB
Hopper-unnormalized-deterministic-scores.png 33KB
HalfCheetah-normalized-deterministic-scores.png 33KB
HumanoidStandup-normalized-deterministic-scores.png 32KB
Walker2d-normalized-deterministic-scores.png 31KB
Hopper-normalized-deterministic-scores.png 30KB
kfac.py 44KB
build_graph.py 20KB
acer.py 18KB
ppo2.py 18KB
ddpg_learner.py 17KB
tf_util.py 16KB
ddpg.py 15KB
trpo_mpi.py 14KB
trpo_mpi.py 14KB
logger.py 14KB
environment.py 13KB
distributions.py 13KB
deepq.py 13KB
simple_world_comm.py 11KB
rendering.py 11KB
retro_wrappers.py 10KB
ddpg.py 10KB
pposgd_simple.py 9KB
run_mujoco.py 9KB
utils.py 9KB
a2c.py 9KB
atari_wrappers.py 8KB
rollout.py 8KB
misc_util.py 8KB
train.py 7KB
simple_adversary.py 7KB
models.py 7KB
run.py 7KB
core.py 7KB
main.py 7KB
acktr.py 7KB
policies.py 6KB
replay_buffer.py 6KB
monitor.py 6KB
simple_crypto.py 6KB
running_mean_std.py 6KB
benchmarks.py 6KB
main.py 6KB
config.py 6KB
gail-eval.py 6KB
simple_tag.py 6KB
models.py 6KB
normalizer.py 5KB
env_wrapper.py 5KB
cmd_util.py 5KB
behavior_clone.py 5KB
shmem_vec_env.py 5KB
segment_tree.py 5KB
maddpg.py 5KB
__init__.py 5KB
adversary.py 5KB
buffer.py 4KB
utilities.py 4KB
simple_push.py 4KB
mujoco_dset.py 4KB
util.py 4KB
simple_spread.py 4KB
schedules.py 4KB
replay_buffer.py 4KB
共 207 条
- 1
- 2
- 3
资源评论
WiwiChow
- 粉丝: 35
- 资源: 4501
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功