pytorch实现的离线强化学习7种常见算法代码
这个资源包含了BC、BCQ、BEAR、TD3-BC、CQL、IQL、AWAC七种离线强化学习算法的实现,每个算法文件夹都可以独立运行并测试相应算法在不同环境中的性能。
这个资源包含了BC、BCQ、BEAR、TD3-BC、CQL、IQL、AWAC七种离线强化学习算法的实现,每个算法文件夹都可以独立运行并测试相应算法在不同环境中的性能。
这个资源是一个包含了使用 PyTorch 实现的11种常见在线强化学习算法的代码集合。每个算法都有独立的文件夹,可以单独运行并测试相应算法在不同环境中的性能。以下是资源中包含的算法: 1、Q-learning 2、SARSA 3、DQN (Deep Q-Network) 4、Double-DQN 5、Dueling-DQN 6、PG (Policy Gradient) 7、AC (Actor-Critic) 8、PPO (Proximal Policy Optimization) 9、DDPG (Deep Deterministic Policy Gradient) 10、TD3 (Twin Delayed DDPG) 11、SAC (Soft Actor-Critic)
提供中文开源情感文件中最全的词典,包括Hownet情感词典全,清华情感词典全,台湾大学情感词典全,情感词典及其分类,汉语情感词极值表,褒贬词及其近义词,否定词等。