基于Spark SQL构建即席查询平台
本篇资源摘要信息将为读者提供基于Spark SQL构建即席查询平台的知识点总结,涵盖了即席查询的概念、Spark的选择理由、基于Spark的架构设计、性能优化、安全和资源隔离等方面的详细内容。
一、即席查询的概念
即席查询(Ad-Hoc Query)是一种不固定的查询模式,查询模式相对不固定,数据没有(时间/成本)做过多预处理,数据暂时不知如何处理,交互式(Interactive),查询具有较高时效性。
二、为什么选择Spark
Spark相比MPP和Hadoop具有优势,如高扩展性、低延迟、简洁的架构复杂度和良好的容错机制。
三、基于Spark的架构设计
基于Spark的架构设计包括即席查询平台、用户界面、查询引擎、存储引擎、安全和资源隔离等方面。 Spark提供了Platform as a Service,用户不再关心部署/升级/调参/监控,提供了各种形式的API,合理/简洁的概念抽象,Resource/Project/Dataset/Table/Partition等概念。
四、性能优化
基于Spark的性能优化包括查询引擎与存储引擎紧密配合,解决IO瓶颈,翻译优化,规避慢节点,构建索引,充分利用内存,列式存储,减少框架开销等方面。
五、安全和资源隔离
基于Spark的安全和资源隔离包括基于Cgroup/Namespace的Container隔离,CPU/Memory/FS的资源隔离,Container本身的加固,网络的互通与隔离,基于JVM沙箱层的多种安全策略,计算/存储框架层的安全认证和加密传输等方面。
六、其他技术细节
其他技术细节包括规避慢节点、有选择的构建索引、有选择的Cache数据、原Shuffle和DCE-Shuffle的对比等方面。
本篇资源摘要信息提供了基于Spark SQL构建即席查询平台的详细知识点总结,涵盖了即席查询的概念、Spark的选择理由、基于Spark的架构设计、性能优化、安全和资源隔离等方面的详细内容,对读者有很高的参考价值。