软件环境: RHEL 5.3 x64操作系统,内核版本2.6.18-128.el5。 GNU C/C++/Fortran编译器。 Nvidia CUDA Toolkit 2.1开发工具。 Mvapich/OpenMPI并行编程环境。 Atlas/GotoBlas数学函数库。 Torque/Maui资源管理系统及作业调度器。 Ganglia集群监控系统。 ### Tesla GPU集群服务器使用手册知识点解析 #### 一、系统环境简介 **1.1 硬件环境** - **头节点**: 名称为`console`,配备了一颗Intel Xeon E5504四核处理器(2.0GHz主频、2×4MB缓存)、8GB内存以及6块300GB SAS硬盘(RAID 5模式)。 - **计算节点**: 共有90个计算节点,分为两种配置: - **配置一**: 包括c0101-c0110、c0201-c0203、c0301-c0305(共计18个节点),每个节点配备了AMD Phenom 9850四核处理器(2.5GHz主频、4×256KB二级缓存、4MB三级缓存)、3块Tesla C1060 GPU处理器、8GB内存和一块500GB SATA硬盘。 - **配置二**: 包括c0204-c0233、c0401-0442(共计72个节点),每个节点配备了Intel Xeon E5410四核处理器(2.33GHz主频、2×6MB二级缓存)、2块Tesla C1060 GPU处理器、8GB内存和一块500GB SATA硬盘。 **1.2 网络连接** - 计算节点之间通过DDR4X InfiniBand高速网络进行连接,用于计算数据传输;同时通过千兆以太网进行连接,用于系统管理和信息通讯。 **1.3 软件环境** - 操作系统: RHEL 5.3 x64,内核版本2.6.18-128.el5。 - 编译器: GNU C/C++/Fortran。 - 开发工具: Nvidia CUDA Toolkit 2.1。 - 并行编程环境: Mvapich/OpenMPI。 - 数学函数库: Atlas/GotoBlas。 - 资源管理和作业调度: Torque/Maui。 - 集群监控系统: Ganglia。 **1.4 文件系统** - 所有计算节点(除console外)通过NFS挂载console的/export目录,所有节点的/home目录指向/export/home。由于文件系统性能有限,建议避免运行大规模并行或复杂I/O的应用程序。 #### 二、程序开发及调试环境 **2.1 基本编译环境** - 所有节点提供了GCC编译器(gcc/g++/gfortran),用于编译C/C++/Fortran程序。 - 计算节点还提供了Nvidia CUDA Toolkit中的nvcc编译器,用于编译CUDA加速程序。 **2.2 并行程序编译环境** - 提供了两套并行编程环境: Mvapich和OpenMPI。 - 用户可以通过创建~/.mpi_type文件来指定使用的并行环境类型,例如设置`MPITYPE="openmpi"`来使用OpenMPI。 - 修改后需要重新登录系统以使设置生效。 #### 三、作业提交运行 **3.1 资源管理系统与作业调度器** - 使用Torque资源管理系统和Maui作业调度器。 - Torque是开源软件OpenPBS的后续版本,Maui则是通用的集群作业调度器,支持多种资源管理系统。 **3.2 提交作业** - 用户可以通过提交批处理脚本到Torque进行作业调度。 - 可以利用Maui的高级调度功能来优化作业的执行顺序和资源分配。 - 相关命令如`qsub`用于提交作业,`qstat`用于查看作业状态等。 #### 总结 Tesla GPU集群服务器提供了强大的计算能力,适用于需要大量GPU加速的高性能计算任务。通过细致的硬件配置和丰富的软件环境,用户能够高效地开发和运行复杂的并行计算应用。同时,通过Torque和Maui等工具的支持,可以灵活地管理和调度计算资源,满足不同规模和类型的计算需求。
- 随枫扬2017-09-142个积分不值
- 粉丝: 0
- 资源: 9
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助