强化学习的四种相关环境介绍 强化学习是机器学习领域中的一种重要技术,旨在让 agent 通过试验和错误来学习如何在环境中采取合适的行动,以获得最大化的奖励。在强化学习中,环境是agent 学习和交互的平台。下面我们将介绍四种相关环境:Mini World、Gym Maze、Grid World 和 Mini Grid。 Mini World Mini World 是一个基于 Python 的 3D 游戏引擎,用于模拟具有房间、门、走廊和各种对象(办公室、家庭环境、迷宫)的环境。其特点包括: * 可以创建自己的关卡和修改现有的关卡 * 提供了各种免费的 3D 模型和纹理 * 提供俯视图 * 能够在墙壁上展示数字和字符串 在 Mini World 中,世界由静态的元素组成,包括房间还有墙壁,也能够由实体组成动态对象。可以创建、连接房间,组合房间形成走廊。Mini World 给人的感觉就像是第一视角巡视。采用的坐标系是右手坐标系,地平面由 x 轴和 z 轴组成, Y 轴指向上方。 Gym Maze Gym Maze 是一个简单的 2D 迷宫环境,Agent 能够选择上、下、左、右的动作,由二维空间坐标组成,左上角单元格的坐标为(0,0),agent 需要从左上角的蓝色方块到达右下角的红色方块。在这个过程当中需要寻找最短的路径。 Grid World Grid World 是一个基础类的小环境,可以根据自己的需要进行编写,可以创造出利于自己算法发挥作用的环境。这类环境一般包含的状态信息主要是 agent 坐标,动作可以是四面八方。适用于离散型的动作。 Mini Grid Mini Grid 是 Gym 网格观景当中特别简单的一种网格环境,这个环境的依赖项相对较少。这个环境当中类似于一种磁贴,每个网格当中可以含有一个磁贴对象,每个对象含有一个表示的类型:墙壁、地板、门、钥匙、球。Agent 在环境当中的基本操作:向左向右前进拿起物体放下物体打开门(与对象交互)可以通过代码调整环境的大小、复杂性。 在强化学习中,这四种环境为 agent 提供了不同的挑战和学习平台,让 agent 能够通过试验和错误来学习如何在环境中采取合适的行动,以获得最大化的奖励。
剩余14页未读,继续阅读
- 粉丝: 1
- 资源: 5
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
评论0