没有合适的资源？快使用搜索试试~ 我知道了~

文库首页人工智能机器学习该存储库为OpenAI健身房环境提供了近端策略优化（PPO）的最小PyTorch实现，具有剪裁目标

该存储库为OpenAI健身房环境提供了近端策略优化（PPO）的最小PyTorch实现，具有剪裁目标

共11个文件

py：4个

pth：3个

gif：2个

pytorch

需积分: 0 0 下载量 111 浏览量 2023-10-21 16:40:03 上传评论收藏 4.37MB ZIP 举报

温馨提示

该存储库为OpenAI健身房环境提供了近端策略优化（PPO）的最小PyTorch实现，具有剪裁目标。

资源推荐

资源详情

资源评论

Popular-RL-Algorithms:软参与者关键（SAC），双延迟DDPG（TD3），参与者关键（ACA2C），近端策略优化（PPO），QT-Opt，PointNet的PyTorch实施。

算法包括软参与者关键（SAC），深度确定性策略梯度（DDPG），双延迟DDPG（TD3），参与者关键（AC / A2C），近端策略优化（PPO），QT-Opt（包括交叉熵（ CE）方法）， PointNet ，运输商，循环策略梯度，软决策树等...

PyTorch实施优势演员评论（A2C），近端策略优化（PPO），可扩展的信任区域方法，用于使用Kronecker因子逼近（ACKTR）和生成的对抗模仿学习（GAIL）进行深度强化学习。-Python开发

这是Advantage Actor Critic（A2C）的PyTorch实现，这是A3C近端策略优化PPO的同步确定性版本，用于使用Kronecker因子近似ACKTR生成的对抗模仿学习GAIL进行深度强化学习的可扩展信任区域方法另请参阅OpenAI帖子：A2C ...

Python-用PyTorch实现FasterRCNN

5星 · 资源好评率100%

用PyTorch实现Faster RCNN

目标检测模型（YOLOv1-v3系列，ssd）的pytorch实现

Python-在Atari游戏环境中用PyTorch实现具有重播体验的深度QLearning

在Atari游戏环境中用PyTorch实现具有重播体验的深度Q-Learning，由Google DeepMind公开发布

完整车牌号识别程序，可以识别车牌和颜色，可以集成到项目中支持win7+

5星 · 资源好评率100%

基于.Net开发车牌号识别程序，通过控制台输出结果，可以通过启动参数传入地址，集成到项目中。使用介绍：https://blog.csdn.net/billyyi/article/details/138597795

ChatGPT教程（终极版）最全整理

5星 · 资源好评率100%

这是一篇动了某些人利益的良心教程。这是一篇姗姗来迟的ChatGPT教程。纯小白关于ChatGPT入门，你看我这篇文章就够了。如果你已经用上了ChatGPT，更要恭喜你挖到宝藏，后面的高级技巧一定能让你有收获。文章包含以下内容：一、ChatGPT是啥？有什么用；二、ChatGPT如何注册；三、ChatGPT使用方法；四、用ChatGPT搞钱；五、高级技巧；

博客中Kmeans以及FCM算法数据（免积分）

5星 · 资源好评率100%

博客中Kmeans以及FCM算法的数据，包括IRIS鸢尾花数据集、Wine葡萄酒数据集、Seed小麦种子数据集、glass数据集、WDBD乳腺癌数据集，下载在直接存入项目文件夹即可，如果下载不了，可以私信我，看到后会及时回复。

hugging face的models-openai-clip-vit-large-patch14文件夹

4星 · 用户满意度95%

用于无法访问hugging face并需要运行stable-diffusion-webui时使用

XGBoost+LightGBM+LSTM-光伏发电量预测

5星 · 资源好评率100%

包含比赛代码、数据、训练后的神经网络模型等。在分析光伏发电原理的基础上，论证了辐照度、光伏板工作温度等影响光伏输出功率的因素，通过实时监测的光伏板运行状态参数和气象参数建立预测模型，预估光伏电站瞬时发电量，根据光伏电站DCS系统提供的实际发电量数据进行对比分析，验证模型的实际应用价值。 1 数据探索与数据预处理 1.1 赛题回顾 1.2 数据探索性分析与异常值处理 1.3 相关性分析 2 特

Mathwork+Matlab+编程手册

Introduction to Programming with MATLAB ~ Vanderbilt University

时间序列预测模型实战案例(Xgboost)(Python)(机器学习)包括时间序列预测和时间序列分类，点击即可运行！

内容概要资源包括三部分(时间序列预测部分和时间序列分类部分和所需的测试数据集全部包含在内) 在本次实战案例中，我们将使用Xgboost算法进行时间序列预测。Xgboost是一种强大的梯度提升树算法，适用于各种机器学习任务，它最初主要用于解决分类问题，在此基础上也可以应用于时间序列预测。时间序列预测是通过分析过去的数据模式来预测未来的数值趋势。它在许多领域中都有广泛的应用，包括金融、天气预报、股

中文短信数据集-带标签

本数据集可用于进行文本分类、信息检索等自然语言处理实验，共包含80万条短信。其中：原始数据集data.txt每行为1条短信，格式为“标签\t短信内容”，标签=0表示正常短信，标签=1表示垃圾短信。train.csv和test.csv为拆分后的训练集与测试集，拆分代码为train_test_split.py。stopwords.txt为使用的停用词。基于该数据集的文本分类详见文章https://

Stable-Diffusion WEBUI 简体中文语言包（2023.05.30更新）

AI绘图，Stable-Diffusion WEBUI，本地化（简体中文）语言文件。原始文件来自翻译插件，根据自己实际使用情况，增加和修改了一些翻译。配合【双语插件】看上去要自然一点，内容还在继续完善中。本次增加了一些翻译内容，特别是插件。同时继续合并了其它翻译插件的内容。最近文字提示修改得有点多啊。请放入“你的SDWebUI项目位置/localizations/”中。中文翻译

收起资源包目录

ppo-pyorch-master.zip （11个子文件）

ppo-pyorch-master

gif

PPO_BipedalWalker-v2.gif 3.37MB

PPO_LunarLander-v2.gif 1.16MB

PPO_LunarLander-v2.pth 43KB

PPO_continuous.py 8KB

PPO.py 10KB

test_continuous.py 2KB

preTrained

PPO_LunarLander-v2.pth 43KB

PPO_continuous_BipedalWalker-v2.pth 31KB

requirements.txt 780B

test.py 2KB

README.md 944B

共 11 条

# PPO-PyTorch This repository provides a Minimal PyTorch implementation of Proximal Policy Optimization (PPO) with clipped objective for OpenAI gym environments. It is primarily intended for beginners in Reinforcement Learning for understanding the PPO algorithm. It can still be used for complex environments but may require some hyperparameter-tuning or changes in the code. Modified from https://github.com/tangyudi/Ai-Learn ## Usage - To train a new network : run `PPO_continuous.py` - To train a new network : run `PPO.py` - To train a test network : run `test_continuous.py` - To train a test network : run `test.py` ## Dependencies Trained and tested on: ``` gym==0.19.0 pyglet==1.5.27 box2d box2d-kengz gym[box2d] torch==2.0.1+cu117 ``` If you still have problems, you can check `requirement.txt`. ## References - VMPO [paper](https://arxiv.org/abs/1909.12238) - [OpenAI Spinning up](https://spinningup.openai.com/en/latest/)

评论收藏

内容反馈

资源评论