标题和描述涉及的主题是大数据分析中的算法,特别是关于数据立方的高效实化和快速查询方法。数据立方在联机分析处理(OLAP)中扮演着关键角色,用于存储和快速检索多维数据。针对OLAP查询效率的提升,研究集中在数据立方的构建优化,包括浓缩数据立方的使用和实化策略。
数据立方的实化是一种预先计算和存储部分或全部数据立方的方法,以减少查询响应时间。然而,实化也会带来存储开销和计算复杂性的问题。为解决这些问题,研究提出了层次前缀立方(HierPrefixCube)结构,这是一种能够处理层次数据并兼顾数据立方压缩、元组恢复和查询效率的新颖结构。层次前缀立方通过组织数据立方为共享前缀簇树,有效地平衡了这些方面的需求,实验结果显示,它在提供基于维度层次查询的同时,计算成本较低,且能显著压缩数据立方的大小。
此外,论文还探讨了在内存中实化数据立方以进一步减少查询响应时间的方法。以元组为单位建立的内存实化模型,特别是在内存中存储最细粒度数据,能够减少I/O操作,优化查询性能,并降低数据立方的更新和维护成本。实验表明,优先实化小尺寸的浓缩数据立方在时间上是最优的选择。
考虑到内存资源的限制,论文还考虑了闪存技术的应用,提出了一种三级存储结构,即在内存中实化粗粒度小方,在闪存中实化细粒度元组,而在硬盘上存储事实表。针对闪存的特性和限制,采用了多级动态完美哈希索引来管理和优化写入操作,以减轻频繁写入导致的问题。
最后,论文讨论了实化视图在查询优化中的作用,尤其是对于包含SPREADSHEET子句的SQL查询。实化视图匹配算法被提出,以加快含有SPREADSHEET子句的查询响应速度,实验表明这种方法具有出色的性能和可扩展性。
关键词:联机分析处理,数据立方,浓缩数据立方,层次前缀立方,实化,查询,哈希索引。