没有合适的资源?快使用搜索试试~ 我知道了~
大型 Linux 集群系列简介 本文是介绍安装和设置大型集群系列文章的第一篇。该系列文章的目的是把分散在公共领域不同地方的、用各种硬件和软件创建工作的 Linux 集群的过程所需要的信息,集中在一个地方。但是,这些文章并不打算介绍关于设计一个完整的新的大型 Linux 集群所需的基础知识。请参阅 参考资料 下的参考资料和红皮书获得一般性的架构指南。 本系列的前两部分介绍集群的安装,概述了使用 IBM 系统管理软件 —— 集群系统管理(Cluster Systems Management,CSM)进行的硬件配置和安装。第一篇文章直切主题,介绍了硬件配置过程。第二篇文章介绍管理服务器的配置和节点安装。本系列后续文章将介绍集群的存储后端,包括存储硬件配置以及 IBM 共享文件系统 —— 通用并行文件系统(General Parallel File System,GPFS)的安装和配置。 这个系列可供系统架构师和系统工程师在使用 IBM eServer 集群 1350 框架规划和实现 Linux 集群时使用。(请参阅 参考资料)。出于培训目的,正常集群操作中的一些内容可能还与集群管理员有关。
资源推荐
资源详情
资源评论
安装大型 Linux 集群
=狒狒整理=2008-6-2=
大型 Linux 集群系列简介
本文是介绍安装和设置大型集群系列文章的第一篇。
该系列文章的目的是把分散在公共领域不同地方的、用
各种硬件和软件创建工作的 Linux 集群的过程所需要的信息,集中在一个地方。但是,这些文章并不打算
介绍关于设计一个完整的新的大型 Linux 集群所需的基础知识。请参阅
参考资料 下的参考资料和红皮书
获得一般性的架构指南。
本系列的前两部分介绍集群的安装,概述了使用 IBM 系统管理软件 —— 集群系统管理(Cluster Systems
Management,CSM)进行的硬件配置和安装。第一篇文章直切主题,介绍了硬件配置过程。第二篇文章
介绍管理服务器的配置和节点安装。本系列后续文章将介绍集群的存储后端,包括存储硬件配置以及 IBM 共
享文件系统 —— 通用并行文件系统(General Parallel File System,GPFS)的安装和配置。
这个系列可供系统架构师和系统工程师在使用 IBM eServer 集群 1350 框架规划和实现 Linux 集群时
使用。(请参阅
参考资料)。出于培训目的,正常集群操作中的一些内容可能还与集群管理员有关。
第 1 部分:集群的通用架构
在采取任何配置步骤之前,一个良好的设计至关重要。设计分为两个部分:
• 物理设计
o 每种机架类型的机架布局(例如,管理机架和计算机架)
o 机房设计:在安装和生产期间(如果两者不同)应当如何布置机架
o 机架间的连接图(用于网络、电源、控制台访问等等)
o 机架内的电缆连接(用于存储、终端服务器等等)
• 逻辑设计
o 网络设计包括:IP 地址范围、子网配置、计算机命名规范等等
o CSM 配置,包括:定制脚本位置、硬件设置、监视需求
o 操作系统需求、定制包列表、系统配置选项
o 存储布局,包括文件系统布局、分区、复制等等
示例集群(请参阅图 1)完全由基于 Intel® 或 AMD 的 IBM Systems 计算机以及附加的
TotalStorage 子系统构成(关于这些系统的更多信息,请参阅
参考资料。)为简单起见,用千兆铜线以太
网电缆提供集群的内部连接。电缆在多数情况下可以用 bonded/port-channeled/etherchannel 链接提
高机架间的带宽,从而提供良好的传输速率
在这里插入自己喜欢的中继项
。
网络拓扑采用星形结构,所有机架向后连接到管理机架的主交换机。示例集群使用三个网络:一个用于管理/
数据(计算网络),一个用于集群文件系统(存储网络),一个用于管理性设备的管理。前两个网络是普通
的 IP 网络。多数任务使用计算机网络,包括进程间通信(例如 MPI)和集群管理。存储网络专门用于集群
文件系统的通信和访问。
图 1. 集群架构图
示例集群的一些额外设计和布局细节包括:
• 管理服务器——管理服务器的功能可以放在一台服务器或多台服务器上。在单台服务器环境中,管理
服务器以独立模式运行。也可以设置高可用性管理服务器。可以使用 CSM 高可用性(HA)软件在
两台服务器之间进行 “心跳测试”,在发生故障情况时管理服务器之间的动态故障屏蔽。引入额外管
理服务器的另一种可行方法是:当 HA 在环境中不重要的时候,使用复制设置。在这种情况下,可
以把管理服务器的数据备份到其他活动系统,可以通过手动设置将备份系统联机以便接管管理工作
(如果有必要的话)。在
图 1 中,管理网络连接用红色显示。管理服务器是 CSM 服务器,它使
用 CSM 功能专门控制集群:负责系统安装、监视、维护和其他任务。在这个集群中,只有一台管
理服务器。
• 存储服务器和磁盘 —— 可以用多种机制把多台存储服务器连接到基于磁盘的后端。可以用光纤、铜
缆或结合使用二者,直接把存储器连接到集群,或者通过存储区域网络(SAN)交换机连接(请参阅
图 1)。这些服务器为集群中的其他服务器提供共享的存储访问。如果需要数据备份,请用额外的铜
缆或光纤链路把备份设备连接到存储服务器。对于示例集群,存储的备份端是个单一实体,提供了跨
集群的共享文件系统访问。本系列的下一篇文章介绍存储硬件和集群文件系统设置、配置和实现的细
节。
• 用户节点 —— 理想情况下,集群的计算机节点不应该接受外部连接,只应当由管理员通过管理服务
器访问。系统用户可以登录到用户节点(或登录节点),在集群上运行他们的工作。每个用户节点都
包含带有完整编辑功能的镜像、必要的开发工具、编译器和开发支持集群的应用程序和检索结果所必
需的所有其他内容。
• 调度器节点 —— 为了在集群上运行工作负荷,用户应当把自己的工作提交到调度器节点。在一个或
多个调度器节点上运行的调度器守护程序使用预定的策略在集群上运行工作负荷。与计算机点一样,
调度器节点也不应当接受来自用户的外部连接。系统管理员应当从管理服务器管理它们。
• 计算节点 —— 这些节点运行集群的工作负荷,接受来自调度器的作业。计算机节点是集群中最常使
用的部分。系统管理员可以轻易地使用管理服务器重新安装或配置它们。
外部连接 —— 示例外部连接在 图 1 中用绿色显示。这些连接被看作在集群之外,所以本文将不多做说明。
硬件配置
装配好机架并把它们放在适当位置上,连接好全部电缆之后,仍要做大量的硬件配置工作。本文不介绍特定
于某种具体集群的特定电缆连接细节。本文使用了上面列出的示例集群设计作为具体示例,说明了在安装集
群前所需的硬件配置
逻辑网络设计
在安装集群时最常被忽略的任务就是逻辑网络设计。理想情况下,在实现集群前,应该在纸上进行逻辑设计。
有了逻辑网络设计之后,就用它创建主机文件。在小型集群中,如果网络上没有太多设备,可以手工编写主
机文件。但是,通常最好是生成一个命名规范,然后编写一个定制脚本,自动生成主机文件。
确保网络上的所有设备都在主机文件中表示出来。请看如下示例(包含示例名称):
• 管理服务器 (mgmt001 - mgmtXXX)
• 存储服务器 (stor001 - storXXX)
• 计算节点 (node001 - nodeXXX)
• 调度器节点 (schd001 - schdXXX)
• 用户节点 (user001 - userXXX)
这个命名规范只涉及了网络中的五类计算机系统,而且只有一个网络,所以还不够好。还要考虑存储网络和
计算机网络,以及设备管理网络。所以这个文件还需要扩展。需要访问集群文件系统的每个节点都需要存储
网络上的一个地址。每个节点在计算网络上需要两个地址:一个用于计算地址,另一个用于基板管理控制器
(BMC),BMC 用来进行硬件监视和电源控制。表 1 用示例 IP 地址范围描述了更全面的命名规范。
表 1. 主机文件命名规范
Device Compute
192.168.0.0/24
BMC
192.168.0.0/24
Storage
192.168.1.0/24
Device
192.168.2.0/24
External
ext n/w
Management
server
mgmt001 mgmt001_d mgmt001_s mgmt001_m m
g
mt001
_
Storage server stor001 stor001_d stor001_s stor001_m stor001_e
用户节点
user001 user001_d user001_s
无 无
Scheduler
nodes
schd001 schd001_d schd001_s/
无 无
User nodes node001 node001_d node001_s
无 无
Compute
switches
无 无 无
gigb01a
无
Storage
switches
无 无 无
gigb01b
无
Terminal
servers
无 无 无
term001
无
Storage
controller A/B
无 无 无
disk01a/b
无
LCM/KVM/RCM
无 无 无
cons001
无
在实现的时候,这个方案生成与
下载 中能访问的示例类似的主机文件。这个小的示例集群包括 16 个计算
节点、一个管理服务器、一个存储服务器、一个用户节点和一个调度器节点,放在两个机架内,并附加了相
关的设备。虽然没有提供一个大型集群,但对这个示例集群来说已经足够了,如果需要,可以很容易地把它
扩展成更大的集群。
以太网交换机
有两个物理网络:一个用于计算通信量,一个用于存储。每个机架中,标准的 32 个节点需要有两个 48 口
交换机,一个交换机负责一个网络。在更小型的集群中,管理机架还需要两个同样的交换机。对于更大的集
群,48 端口可能还不够,所以可能需要更大的中心交换机。
两个主网络(不考虑设备管理网络)的每个交换机需要的配置各不相同,因为(就像在示例中那样),千兆
以太网间的连接在存储网络中使用巨型帧,而在计算机网络上使用标准大小的帧。设备管理网络的设置通常
非常简单:在 10/100 兆交换机上平层的两类网络可以满足设备管理要求,所以无需多做说明。
示例 A: Extreme Networks(极限网络)交换机
下面是 Extreme Networks Summit 400-48t 48 口千兆以太网交换机的配置步骤。
首先,用串口直连电缆连接到每台交换机的串行控制端口(9600、8-N-1、无流控制),使用默认用户 ID
admin,无密码。(只需在提示符上按下回车键。)
对于所有交换机,请执行以下步骤:
1. 输入 unconfig switch all —— 如需要,清除现有配置
2. 输入 configure vlan mgmt ipaddress 192.168.2.XXX/24 —— 设置管理 IP 地址。
3. 输入 configure snmp sysname gigbXXX.cluster.com —— 设置交换机名称。
4. 输入 configure sntp-client primary server 192.168.2.XXX —— 把 NTP 服务器设置为管理服
务器。
5. 输入 configure sntp-client update-interval 3600 —— 设置时间同步为每小时同步一次。
6. 输入 configure timezone 0 —— 设置时区。
7. 输入 enable sntp-client —— 启动 NTP。
8. 如果需要,输入 configure ports 1-4 preferred-medium copper —— 在端口 1-4 上将默认的首
选介质光纤改为铜缆。
现在在存储网络交换机上配置巨型帧,请执行以下步骤:
9. 输入 create vlan jumbo —— 创建巨型帧 vlan。
10. 输入 configure "mgmt" delete ports 1-48 —— 从 mgmt vlan 删除端口。
11. 输入 configure "jumbo" add ports 1-48 —— 把端口添加到 jumbo vlan。
12. 输入 configure jumbo-frame size 9216—— 设置最大传输单元(MTU)的大小。
13. 输入 enable jumbo-frame ports 1-48 —— 开启巨型帧支持。
要在 2 个端口的连接上启用中继,使用 enable sharing 47 grouping 47-48 (把端口 47 和 48 组合起
来,47 作为主端口)。
要完成配置,请完成以下操作:
14. 输入 save configuration primary —— 把交换机配置写入 flash,这样重启也不丢失。
15. 输入 use configuration primary
示例 B:Force 10 Networks 交换机
下面是 Force 10 Networks e600 multi- blade Gigabit Ethernet 交换机(有两个 48 端口面)配置步
骤,用于路由网络(中央 48 端口交换机还不够大)。
执行以下步骤配置初始层配置的底盘、线卡和端口:
1. 用串口直连电缆连接到每台交换机的串行控制端口(9600、8-N-1、无流控制),默认下不需要用
户 ID 和密码。
2. 输入 enable —— 进入超级用户模式,默认下不需要口令。
3. 输入 chassis chassis-mode TeraScale —— 把交换机初始化为 tera-scale 模式。
4. 交换机提示的时候,重新启动交换机。这要花上几分钟时间。
5. 重启之后,连接到交换机,再次输入 enable 进入超级用户模式。
6. 输入 configure —— 进入配置模式。提示符类似于 Force10(conf)#) 。
7. 输入 Interface Range GigabitEthernet 0/0 - 47 (配置线卡 0 端口 0 到 47,提示符类似于
Force10(conf-if-range-ge0/1-47)#) 。
8. 如果需要,输入 mtu 9252 —— 设置巨型帧。
9. 输入 no shutdown—— 允许激活端口。
10. 输入 exit —— 回到配置模式。
11. 千兆以太网的接口范围是 1/0 - 47。 (提示符类似于 Force10(conf-if-range-ge0/1-47)#)。
12. 对每个线卡重复步骤 7-10。
执行以下操作为第 3 层(Vlan 路由层)配置线卡和端口:
13. 连接到交换机,输入 enable 进入超级用户配置模式。
14. 输入 int port channel 1 —— 配置端口通道 1。
15. 输入 channel-member gig 0/46-47 —— 把线卡 0 的端口 46 和 47 添加到 vlan.
16. 输入 no shutdown —— 允许端口通道激活;这个选项覆盖不活动/活动端口的端口配置。
17. 输入 ip add 192.168.x.x/24 —— 设置端口通道的 IP 地址;这是子网的网关。
18. 如果需要,输入 mtu 9252 —— 设置巨型帧。
现在,打开 DHCP 助手,执行以下操作,跨越子网转发 DHCP 广播:
19. 输入 int range po 1-X —— 把配置应用到刚才配置了的所有通道端口。
20. 输入 ip helper 192.168.0.253 —— 把 DHCP 转发到管理服务器的 IP 地址。
接下来,执行以下操作配置交换机实现远程管理(用 telnet 或 SSH):
21. 输入 interface managementethernet 0 —— 在配置提示符上配置管理端口。
22. 输入 ip add 192.168.2.x/24 —— 设置设备管理网络上的 IP 地址,并把管理端口连接到设备管理
交换机。
23. 设置允许远程连接的用户 ID 和密码。
最后,输入 write mem 保存交换机配置。
交换机配置完成之后,可以在配置上运行完备性检查。请在网络的不同点上插入一台设备,例如笔记本电脑,
检查连接性。多数交换机能导出它们的配置。请考虑在网络设置正确之后立即对生效的交换机配置做一个备
份拷贝。
之所以描述这两个示例交换机,是因为它们提供了 100% 无阻塞以及高性能千兆以太网交换。Cisco
Systems 的交换机不能提供 100% 无阻塞的吞吐,但也能使用。
终端服务器
在使用 CSM 1.4 之前版本的大型集群安装中,终端服务器发挥着重要作用。使用早期版本的集群要靠终端
服务器来搜集安装使用的 MAC 地址。由于 CSM 和系统 UUID 的兼容性,终端服务器对于更新的 IBM 集
群来说不那么重要。但是 ,如果在大型集群中使用了稍微有些陈旧的硬件,那么在系统设置期间终端服务器
仍然至关重要。确保终端服务器本身设置正确,将在后面的安装过程中节省大量时间。除了搜集 MAC 地址,
终端服务器还能用来在一个点查看终端从启动自检一直到进入操作系统的情况。
剩余40页未读,继续阅读
资源评论
gu_feng1987
- 粉丝: 1
- 资源: 4
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功