Torque Resource Manager Administrator Guide 5.1.3
需积分: 0 9 浏览量
更新于2024-02-16
收藏 2.13MB PDF 举报
### Torque Resource Manager 5.1.3 知识点详解
#### 一、Torque Resource Manager 概述
**Torque Resource Manager**(Torque资源管理器)是一款开源的高性能计算作业调度系统,用于管理和调度分布式计算环境中的任务。它能够支持多种计算节点,并提供丰富的API供用户自定义脚本和策略。该指南为管理员提供了全面的指导,包括安装、配置、维护等关键步骤。
#### 二、安装与配置
##### 2.1 安装概述
Torque采用了模块化设计,使得其能够在不同的操作系统和硬件架构上运行。该章节详细介绍了Torque的基本架构,并指导用户完成安装过程。安装过程分为几个主要步骤:
- **服务器端安装**:安装Torque服务器组件。
- **计算节点配置**:配置计算节点以连接到Torque服务器。
- **服务启用**:设置Torque作为系统服务自动启动。
- **初始化配置**:初始化Torque配置并指定计算节点。
- **高级配置**:根据需求进行更深入的定制化配置。
##### 2.2 Torque 架构
Torque采用客户端-服务器架构模型,其中服务器负责接收作业提交请求、分配资源、监控任务状态等;而客户端(通常指计算节点)则执行实际的任务处理。
- **服务器组件**:主要包括`pbs_server`,负责核心的调度逻辑。
- **计算节点组件**:如`pbs_mom`,负责在本地执行分配的任务。
##### 2.3 安装Torque
安装Torque需要按照官方文档的指示进行操作。首先确保满足所有依赖关系,然后按照以下步骤操作:
1. **下载Torque安装包**:访问官方网站下载最新版或指定版本的Torque安装包。
2. **解压安装包**:将下载的安装包解压至适当的位置。
3. **编译安装**:执行编译和安装命令。
4. **配置服务**:根据系统类型配置Torque服务自动启动。
##### 2.4 配置计算节点
配置计算节点时需要注意以下几点:
- **指定计算节点**:通过`pbs_server`命令指定参与调度的计算节点列表。
- **节点文件配置**:编辑`$PBS_HOME/server_priv/nodes`文件来指定计算节点的信息。
- **虚拟处理器计数**:可通过`resources_default.ncpus`参数指定每个节点上的虚拟处理器数量。
- **GPU计数**:如果节点配备了GPU,则需要通过`resources_default.ngpus`参数指定每台节点上的GPU数量。
- **节点特性**:可以通过`node_state`命令添加特定属性到节点。
##### 2.5 端口配置
为了使Torque正常工作,需要配置合适的端口,包括但不限于:
- **服务器监听端口**:默认情况下,Torque服务器监听端口15001。
- **计算节点通信端口**:用于服务器与计算节点之间的通信。
- **其他端口**:可能还需要配置防火墙规则以允许Torque所需的端口通过。
##### 2.6 trqauthd 配置
`trqauthd`是Torque的一个组件,用于处理客户端命令的身份验证。配置`trqauthd`确保只有授权用户才能提交作业或执行其他管理操作。
- **配置文件**:编辑`$PBS_HOME/server_priv/trqauthd/trqauthd.conf`文件以设置身份验证规则。
- **启动服务**:确保`trqauthd`服务正在运行。
##### 2.7 最终配置
完成基本配置后,还需要进行一些最终检查和配置调整,例如:
- **测试服务器配置**:使用`pbsnodes`命令查看节点状态。
- **NUMA系统配置**:如果运行在支持非统一内存访问(NUMA)的系统上,需特别注意如何优化性能。
#### 三、提交与管理作业
在成功安装和配置Torque之后,接下来的关键步骤是学会如何提交和管理作业。这涉及到作业脚本的编写、作业状态查询、作业控制命令的使用等方面。
- **作业提交**:使用`qsub`命令提交作业。
- **作业状态查询**:通过`qstat`命令获取作业的状态信息。
- **作业控制**:利用`qdel`、`qhold`等命令控制作业的执行状态。
通过以上介绍可以看出,Torque Resource Manager 5.1.3 版本为用户提供了一套完整且功能强大的集群资源管理方案。无论是对于初次接触还是已有经验的管理员来说,这份指南都提供了非常实用且详尽的操作指导,帮助用户高效地管理和利用集群资源。