第一章:大数据与云计算
1。何为大数据?
海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存
储、管理、处理并提炼以帮助使用者决策。
2。大数据具有 4V+1C 的特征
(1)数据量大:存储的数据量巨大,PB 级是常态
(2)多样:数据的来源及格式多样
(3)快速:数据增长速度快
(4)价值密度低:需要对大量的数据进行处理,挖掘其潜在的价值。
(5)复杂度:对数据的处理和分析的难度大
3.什么是云计算?
长定义:云计算是一种商业模型。它将计算任务分布在大量计算机构成的资源池上,使各种
应用系统能根据需要获取计算力、存储空间和信息服务。
短定义:云计算是通过网络按需提供可动态伸缩的廉价计算服务。
4。云计算是并行计算、分布式计算和网络计算的发展。
5.云计算特点:
(1)超大规模(2)虚拟化(3)高可靠性(4)通用性
(5)高可伸缩性(6)按需服务(7)极其廉价
6。云计算按照服务类型大致可分为三类
(1)将基础设施作为服务。(IaaS)(2)将平台作为服务(. PaaS)(3)将软件作为服务(SaaS)
7.云计算实现机制
云计算技术体系结构分为四层:物理资源层、资源池层、管理中间件层和SOA 构建层
8。云计算优势
(1)更低的硬件和网络成本(2)更低的管理成本和电力成本(3)更高的资源利用率
第二章:Google 云计算原理与应用
1.Google 文件系统是一个大型的分布式文件系统。它为Google 云计算提供海量存储,处于
所有核心技术的底层。
2。GFS 将整个系统的节点分为三类角色:客户端、主服务器、数据块服务器
3.GFS 特点
(1)采用中心服务器模式(2)不缓存数据(3)在用户状态下实现(4)只提供专用接口
4。在服务器失效经常发生的情况下,云计算数据存储技术需要采用容错机制和冗余机制来
保证数据的可用性.
5.Master 容错:Master 上保存了 GFS 文件系统的三种元数据。
(1)命名空间,也就是整个文件系统的目录结构
(2)Chunk 与文件名的映射表
(3)Chunk 副本的位置信息,每一个 Chunk 默认有三个副本
6。Chunk Server 容错:Chunk 的默认大小是 64MB。
7.系统管理技术
(1)大规模集群安装技术(2)故障检测技术(3)节点动态加入技术(4)节能技术
8。 MapReduce:在编程时,开发者必须实现两个主要的函数 Map 和 Reduce
(1)一个 Map 函数就是对一部分原始数据进行指定的操作
(2)一个 Reduce 操作就是对每个 Map 所产生的中间结果进行合并操作