大数据导论-6.1.4-熟悉大数据处理技术——大数据的处理模式.pptx
《大数据导论》 大数据的处理模式 大数据导论-6全文共20页,当前为第1页。 一、处理工作量 大数据的处理工作量:被定义为一定时间内处理数据的性质与数量。处理工作量主要分为批处理和事务两种类型。 (1)批处理型。也称为脱机处理,这种方式通常成批地处理数据,因而会导致较大的延迟。通常我们采用批处理完成大数据有序的读/写操作,这些读/写查询通常是成批的。 (2)事务型。也称为在线处理,这种处理方式通过无延迟的交互式处理使得整个回应延迟很小。事务型处理一般适用于少量数据的随机读/写操作。 大数据导论-6全文共20页,当前为第2页。 二、批处理模式 特征:批处理模式中,数据总是成批地脱机处理,响应时长从几分钟到几小时不等。在这种情况下,数据被处理前必须在磁盘上保存。批处理模式适用于庞大的数据集,无论这个数据集是单个的还是由几个数据集组合而成的,该模式可以本质上解决大数据数据量大和数据特性不同的问题。 优势:批处理是大数据处理的主要方式,相较于实时模式,它比较简单,易于建立,开销也比较小。像商务智能、预测性分析与规范性分析、ETL操作,一般都采用批处理模式。 大数据导论-6全文共20页,当前为第3页。 二、批处理模式——1. MapReduce批处理 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 大数据导论-6全文共20页,当前为第4页。 MapReduce提供了以下的主要功能: 1)数据划分和计算任务调度 2)数据/代码互定位 3)系统优化 4)出错检测和恢复 二、批处理模式——1. MapReduce批处理 MapReduce设计上具有以下主要的技术特征: 1)向"外"横向扩展,而非向"上"纵向扩展 2)失效被认为是常态 3)把处理向数据迁移 4)顺序处理数据、避免随机访问数据 5)为应用开发者隐藏系统层细节 6)平滑无缝的可扩展性 大数据导论-6全文共20页,当前为第5页。 执行步骤 二、批处理模式——1. MapReduce批处理 大数据导论-6全文共20页,当前为第6页。 MapReduce是面向大数据并行处理的计算模型、框架和平台。 它隐含了三层含义: 二、批处理模式——1. MapReduce批处理 大数据导论-6全文共20页,当前为第7页。 一次MapReduce处理引擎的运行被称为MapReduce作业,它由映射(Map)和归约(Reduce)两部分任务组成,这两部分任务又被分为多个阶段。 一个作业 = 映射 + 归约 其中映射任务被分为映射(map)、合并(combine)和分区(partition)三个阶段,合并阶段是可选的;归约任务被分为洗牌和排序(shuffle and sort)与归约(reduce)两个阶段。 映射= 映射 + 合并 + 分区 归约= 洗牌和排序 + 归约 二、批处理模式——2. Map和Reduce任务 大数据导论-6全文共20页,当前为第8页。 (1)映射。MapReduce的第一个阶段称为映射。映射阶段首先把大的数据文件分割成多个小数据文件。每个较小的数据文件的每条记录都被解析为一组键-值对,通常键表示其对应记录的序号,值则表示该记录的实际值。 数据在映射阶段的变化 二、批处理模式——1. MapReduce批处理 大数据导论-6全文共20页,当前为第9页。 (2)合并。在MapReduce模型中,映射任务与归约任务分别在不同的节点上进行,而映射模块的输出需要被送到归约模块处理,这就要求把数据由映射任务节点传输到归约任务节点,这个过程往往会消耗大量的带宽,并直接导致处理延时。因此就要对大量的键-值对进行合并,以减少这些消耗。 数据在合并阶段的变化 二、批处理模式——2. Map和Reduce任务 大数据导论-6全文共20页,当前为第10页。 (3)分区。在这个阶段,当使用多个归约模块时,MapReduce模型就需要把映射模块或合并模块(如果该MapReduce引擎指明调用合并功能)的输出分配给各个归约模块。在此我们把分配到每个归约模块的数据叫做一个分区,也就是说,分区数与归约模块数是相等的。图中描述了数据在分区阶段的变化。 数据在分区阶段的变化 二、批处理模式——2. Map和Reduce任务 大数据导论-6全文共20页,当前为第11页。 (4)洗牌和排序。洗牌包括由分区模块将
剩余19页未读,继续阅读
- 粉丝: 168
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助