### 面向大数据异构系统的神威并行存储系统
#### 1. 引言与背景
随着大数据技术的迅速发展及其与传统高性能计算(High Performance Computing, HPC)应用的融合,对计算和存储系统提出了全新的挑战。在这样的背景下,“神威·太湖之光”超级计算机作为中国自主研发的第一台峰值运算速度超过10亿亿次的超级计算机,不仅在计算能力上达到了世界领先水平,还在存储系统的设计和优化方面进行了大量创新,以适应大数据时代的新需求。
#### 2. “神威·太湖之光”异构系统结构简介
“神威·太湖之光”采用了融合体系架构,旨在满足传统高性能计算和大数据等新型应用的不同需求。该系统由两个主要部分构成:一是面向传统高性能计算的高速计算系统;二是面向大数据应用的辅助计算系统。这两部分通过高速计算互联网络进行连接,以实现高效的内部通信和资源调度。
- **高速计算部分**:配备了40960个64位自主神威指令集的SW26010处理器,每个处理器包含260个核心,峰值运算速度高达3.168TFlops。整个系统的峰值运算能力和实测LINPACK性能分别达到了125.436PFlops和93.015PFlops,LINPACK系统效率达到了74.153%。
- **存储系统**:由在线存储系统和近线存储系统组成。在线存储系统负责提供高速可靠的数据存储访问服务,包括288台带有高速SSD的存储服务节点、144台高性能双控制器SAS盘阵以及8台元数据服务节点,总I/O聚合带宽达到341GB/s。近线存储系统则提供面向云和用户业务的存储服务,由6个元数据服务节点、112个存储服务节点和两台大容量SAN盘阵组成。
#### 3. 高性能计算并发I/O对存储系统的需求
高性能计算对存储系统有着独特而严格的要求:
- **整体均衡的并发I/O访问**:由于高性能计算应用存在木桶效应,整体性能受限于最慢的处理过程,因此并发I/O调度的均衡性至关重要。
- **性能**:为了克服计算与存储之间的性能鸿沟,通常采用数据缓存策略,特别是在大规模异构计算环境中,提高分布式缓存的有效性和命中率是关键。
- **可靠性**:存储系统的可靠性设计需要平衡冗余度和处理复杂度,确保数据的安全性和持久性。
#### 4. 存储系统的优化与技术创新
为了应对上述挑战,“神威·太湖之光”的存储系统进行了以下方面的优化与创新:
- **多级存储架构**:通过资源分区等技术减少全局共享访问,同时采用多层次的缓存机制,如SSD和NVRAM等,以提高数据访问速度和减少缓存冲突。
- **高性能并行I/O调度**:通过复杂的调度算法对多条I/O分发通路进行优化,确保整体并发I/O访问的均衡性。
- **数据一致性和可靠性管理**:在引入多层缓存之后,通过高效的数据一致性管理和冗余机制,确保数据的安全性和持久性。
“神威·太湖之光”的并行存储系统通过一系列技术创新和优化措施,成功地增强了对大数据应用的支持,并为未来高性能计算领域的发展奠定了坚实的基础。