石油行业存储系统瓶颈解决案例
中国石油天然气股份有限公司(中国石油)下属的某勘探研究所(以下简称研究所),研
究所使用数百台高性能计算集群(PC Cluster)用于石油勘探地质资料处理,由于石油勘
探地震资料处理流程复杂、地质原始数据文件很大,通常处理流程的分析要占总时间的
60%以上,极大地影响工作的进度和效率。因此,巨大的运算存储空间和存储设备的高
I/O 吞吐性能才能满足 PC Cluster 服务器运算对数据 I/O 带宽的要求。
目前,研究所主要使用 NAS 产品为 PC Cluster 提供文件共享服务。但随着计算规模
的逐渐扩大(上百台高性能节点同时计算),与之配套的存储设备 NAS 却无法提供可扩展
的带宽和存储容量,计算环境和存储环境的不匹配制约了计算集群规模的进一步扩展。随
着国内外地震物探高新技术的快速发展,目前大数据体三维项目越来越多,资料处理过程
中所面临的数据量越来越大、覆盖次数越来越高、道距越来越小。存储环境已经成为影响
未来石油勘探资料处理规模发展的关键因素。
根据测试情况分析,采用 Unix 或者 Linux 操作系统的集群进行高性能计算时的瓶颈
主要表现在 NFS 文件系统上,常规的可安装节点数会有一定的限制。当这个数量超过一定
的级数时,系统的性能反而会更差。如:常规处理的 I/O 带宽需求高,如格式转换作业,
每个节点的峰值带宽超过 100MB/s,这样,后端存储系统难于支持多个作业同时进行,一
般每个 NAS 连接的计算节点不超过 4 个,否则性能会急剧下降;并行处理规模达到 48 个
计算节点以上时,对后端网络带宽的需求超过 100MB/s。随着数据采集密度的增加,对磁
盘和网络带宽的需求总吞吐量将达到数百兆。
经过调优之后,系统的性能仅仅提升了 10%左右,对项目而言,最多能够提前 1 天左
右出结果,意义不大。
蓝鲸集群文件系统解决了在高性能计算领域,随着集群的规模不断增长,对 I/O 性能
和存储容量的扩展性不断增加的问题,同时也解决了计算领域跨平台的存储共享。
解决方案
为解决存储系统瓶颈的问题,方案选用 BWFS v3.0 作为 PC Cluster 的存储系统。方
案拓扑结构请参见下图。