Greenplum数据库最佳实践-V1.2.pdf
在探讨Greenplum数据库最佳实践时,我们首先需要了解Greenplum的背景和体系结构。Greenplum数据库是一种大规模并行处理(MPP)的数据库产品,其核心技术团队成员来自于多个顶级数据库公司和大规模并行计算公司的资深软件架构师。Greenplum数据库软件是业内首创的无共享、MPP的数据库软件产品,它结合了大规模并行计算技术和数据库技术的最新研发成果。这些成果包括无共享/MPP架构、按列存储数据库技术、数据库内压缩技术、MapReduce技术、永不停机扩容能力和多级容错能力。Greenplum被认为是扩展能力最大的分析型(OLAP)数据库软件,已有超过100家世界级的重大客户采用该软件,管理的数据量通常超过100TB,其中全球最大的数据量达到6500TB,而中国最大的数据量达到400TB。每天都有数亿级别的用户直接或间接地使用Greenplum数据库。 Greenplum的发展历程可以追溯到2003年,其核心团队由Scott Yara和Luke Lonergan创立。它的第一个版本在2005年发布。后续Greenplum与Sun公司合作,成为其合伙人,并在2008年发布了Greenplum MapReduce。2008年12月份,Greenplum进入中国市场,并在一年多后宣布在中国独立运营。2010年,Greenplum被EMC收购,并被整合到EMC的云计算战略中。在2011年至2012年期间,Greenplum社区版和Greenplum Chorus版本相继发布并开源。2013年,VMware与EMC宣布成立合资公司Pivotal,并将Greenplum数据库整合过来。2014年发布了Greenplum 4.3版本。2015年10月27日,Pivotal宣布开源Greenplum数据库,并将代码托管至GitHub,使用Apache 2版权协议。 Greenplum数据库的体系结构以满足海量数据处理需求为设计目标。其采用了MPP ShareNothing架构,即无共享的海量并行处理架构,这是唯一能够满足海量数据性能需求的技术。在早期的数据库计算架构中,70年代的Shared-Everthing架构存在I/O和CPU瓶颈问题,而90年代改进的Shared-Storage架构虽然在计算能力上有提升,但I/O瓶颈依然存在,无法满足5T~10T数据量的性能需求。因此,Greenplum在90年代末期创新性地引入了MPP+Sharenothing架构,该架构完全避免了集群中各节点在并行处理过程中的资源争夺,实现了I/O和CPU能力的最大化利用,为海量数据处理提供了最大化的并行计算架构。 Greenplum的内部架构分为Master节点和Segment节点。Master节点是整个集群的接入点,负责处理客户端请求,生成查询计划并优化,之后将其分配到Segment节点进行并行计算。Master节点仅存储数据字典,不存放用户数据。而Segment节点是执行并行计算的节点,用户的全部数据都分布在这些Segment节点中,按照Master节点的指令进行并行计算处理。 Greenplum的核心功能之一是无共享MPP技术,这种技术能够将数据平均分配到系统的所有节点上,从而使得节点存储表或表分区的部分行,实现数据的并行加载和查询。这种架构还支持扩展到上万个节点,以应对大规模数据的处理需求。 另外,Greenplum支持多态存储,允许管理员根据应用需求,选择按列或按行存储数据及处理方式,这种选择性存储和压缩方式大大增强了数据处理的灵活性。 Greenplum作为一个专业的分析型数据库,提供了一系列创新的技术和架构以优化大规模数据的处理能力,支持企业的数据分析需求,特别是在数据仓库和大数据处理方面。随着技术的演进和客户需求的增长,Greenplum也在不断地发展其功能和性能,以维持其在数据库技术领域的领先地位。
剩余102页未读,继续阅读
- 粉丝: 10
- 资源: 1
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助