没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
内容概要:本文深入介绍了大数据的基础概念、特征和发展历程,并重点讲解了大数据生态系统的重要组成部分,特别是Hadoop的核心组件和技术特性。同时涵盖了HDFS的架构与工作机制、HDFS的应用场景及其限制、HiveQL、HBase以及MapReduce的相关技术和实战案例。文章详细探讨了大数据处理的各个环节,包括数据采集、存储、管理和处理等方面,还提供了丰富的命令实例以便实际运用。 适合人群:对大数据技术有兴趣的技术人员、学生群体以及正在接触大数据领域的新人;从事相关领域研究工作的专业人士也可以从中获得帮助。 使用场景及目标:可用于理解大数据概念、掌握Hadoop生态环境下各关键技术点和应用场景;为用户提供了一个较为完整的学习路线指引,使读者更好地理解和运用相关技术解决复杂的大型数据处理任务。 阅读建议:为了最大限度地受益,请确保您已经具备一定的计算机基础知识和编程技能。建议按照章节循序渐进地阅读,并尝试动手实操以加深理解。此外,可以通过在线资源进一步拓展自己的视野和技术水平。对于关键概念和技术细节部分应当认真思考与研究。
资源推荐
资源详情
资源评论
大数据课程复习题
1. 大数据的定义
大数据,指的是所涉及的资料量规模巨大到无法通过目前的主流软件工具,在合理
时间内达到撷(xie2)取、管理、处理、并整理成为帮助企业经营决策更积极目的的资
讯。
2. 大数据的三个特点
3Vs:
-Volume(大量)数据量大,从 TB 级别跃升到 PB 级别
-Variety(多样)数据类型繁多
·非结构化:文本、图形、声音等
·半结构化:日志
·结构化数据:行列规整的表单数据
·多结构化数据:以上三种类型混合的数据
-Velocity(高速)数据的时效性,数据仅在一个短暂的时间范围有价值。
3. Hadoop 项目起始于 2002 年,创始人是 Doug Cutting
4. Hadoop 的两个核心组成部分
-分布式文件系统——HDFS(Nutch Distributed File System)
·数据被分割成小块存于上千的节点上
-分布式数据处理架构——MapReduce
·MapReduce 在数据节点上处理,降低 I/O 成本
·MapReduce 只是一个软件架构,充分灵活,是开发者易于实现多种多样的应用程序。
5. Hadoop 的优点
-高可靠性
·Hadoop 按位存储和处理数据的能力值得人们信赖。
-高扩展性
·Hadoop 是在可用的计算机集簇间分配数据并完成计算业务的,这些集簇可以方便地
扩展到数以千计的节点中。
-高效性
·Hadoop 能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速
度非常快。
-高容错性
Hadoop 能够自动的保存数据的多个副本,并且能够自动将失败的任务重新分配。
-低成本
·与一体机、商用数据仓库等相比,Hadoop 是开源的,项目的软件成本因此会大大降
低。
6. Hadoop 生态系统构成
项目名称
说明
Ambari
整合的 Hadoop 集群管理工具,包括安装、监控和维护
Flume
分布式日志收集系统
HBase
分布式、面向列的开源数据库,适用于非结构大数据存储
HCatalog
用于管理 Hadoop 产生的数据的表存储管理系统
Hive
基于 HDFS 的数据仓库工具可以将结构化的文件映射为一张数据库表,
提供类 SQL 语言 Hive QL
Hue
Hadoop 图形界面管理工具,可以浏览文件及发出 Hive/Pig 指令
Pig
用于大数据分析工具,包含一个能产生 MapReduce 程序的编译器及查
询语言 Pig Latin
Sqoop
用于 Hadoop 系统与传统数据库间进行数据交换的工具
ZooKeeper
是一个分布式应用程序协调服务器
Mahout
数据挖掘算法库
7. Hadoop 的三种运行模式
-独立(本地/单机)运行模式:无需任何守护进程,所有的程序都运行在同一个 JVM 上
执行。在独立模式下调试 MR 程序非常高效方便。所以一般该模式主要是在学习或者开
发阶段调试使用。
-伪分布式模式:Hadoop 守护进程运行在本地机器上,模拟一个小规模的集群,换句话
说,可以配置一台机器的 Hadoop 集群,伪分布式是完全分布式的一个特例。
-完全分布式模式:Hadoop 守护进程运行在一个集群上。
注意:所谓分布式要启动守护进程 ,即:使用分布式 hadoop 时,要先启动一些准备
程序进程,然后才能使用比如 start-dfs.sh start-yarn.sh。而本地模式不需要启动这些守
护进程
8. Hadoop 集群的构成,主从节点内部各自运行的主要进程,及其作用
构成:Hadoop 系统由两个核心子系统和多个扩展子系统组成。
主要进程:
NameNode、SecondaryNameNode 和 JobTracker —— Hadoop 主节点主要进程
DataNode 和 TaskTracker —— Hadoop 从节点主要进程
作用:
Hadoop 主节点是集群的核心,负责协调和管理对所有从节点的数据访问和计算工作。
NameNode:记录文件是如何分割成数据块,以及存储数据块的数据节点的信息;对内
存和 I/O 进行集中管理。
SecondaryNameNode:负责监控 HDFS 状态的辅助后台进程;不接受或记录任何实时的
数据变化;定期与 NameNode 通信,并定期保存 HDFS 元数据的快照,从而降低由于
NameNode 宕机所带来的损失;可以作为备用的 NameNode。
JobTracker:负责将应用程序与 Hadoop 系统对接;确认处理文件,并为所执行任务分配
指定的节点主机;负责监控所运行的任务,一旦发现某任务失败,将重启任务。
Hadoop 从节点担任着数据分布式存储和计算工作。
DataNode:负责将 HDFS 数据块读写到本地文件系统;客服端直接与 DataNode 服务器
的进程进行读/写访问。
TaskTracker:与 DataNode 进程结合进行工作;独立管理其所在从节点上的任务进程;
可以产生多个 JVM 进程,以并行处理多个 Map 和 Reduce 任务;与 JobTracker 进行定时
通讯联络。
9. HDFS 针对硬件故障方面的设计目标是什么
·整个 HDFS 系统可能是由数百上千或千个存储着文件数据片段的服务组成。
·因此硬件故障是常态,而非异态。
·故障检测和自动快速恢复是 HDFS 一个非常核心的设计目标。
10. HDFS 针对大数据集方面的设计目标是什么
·运行在 HDFS 之上的应用程序通常具有很大量的数据集,典型的 HDFS 文件大小是 GB
到 TB 的级别。
·因此,HDFS 被设计为可支持大文件存储。
·它应该能提供整体上很高的数据传输带宽,能在一个集群里扩展到数百个节点,而且
还应该支持千万级别的文件。
11. 不适用 HDFS 的主要场景有哪些
-将 HDFS 用于要求低延迟数据访问的场景
·由于 HDFS 是为搞数据吞吐量应用而设计的,必然一高延迟为代价。
-存储大量小数据文件
·HDFS 中元数据(文件的基本信息)存储在 NameNode 的内存中,而 NameNode 为单
点进程。这样小文件数量达到一定程度时,NameNode 内存就吃不消了。
12. HDFS 系统结构图
-一个 HDFS 集群有一个 NameNode,它的管理文件命名空间和调度客户端访问文件的主
服务器。
-多个 DataNode,通常是一般是一个节点一个,负责管理它所在节点的存储。
13. HDFS 系统的主要功能组件的作用(Block,Rack,DataNode,NameNode)
- Block (数据块):大文件会被分割成多个 Block 进行存储,Block 大小默认为 64MB。每
一个 Block 会在多个 DataNode 上存储多个副本,默认值为 3。
- Rack (机架):一个 Block 的三个副本通常会保存在两个或者两个以上的机架中(当然
是机架中的服务器),这样做的目的是做防灾容错,因为发生一个机架掉电或者一个机
架的交换机故障的概率还是较高的。
- DataNode: 负责处理来自文件系统客户端的读/写请求,并进行数据块的读写、删除和
复制。当然大部分容错机制都是在 DataNode 上实现的。
剩余16页未读,继续阅读
资源评论
ywmzxysjdsjlcf
- 粉丝: 262
- 资源: 28
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- A4 彩机常见问题.pdf
- A3 机器常见问题.pdf
- 非表单形式文件上传和下载
- 500kW储能变流器(PCS) 采用T型三电平模块,结构三维、控制电路、驱动电路,全部的BOM,型式试验报告等全部资料 没有程序源码,本交付的资料与本描述一致,未提及的可能没有
- 免费拆解:快手无人直播,新手小白如何0基础上手,详细教程.mp4
- 大数据实验6数据和python源代码.7z
- 千川投流实操指南:付费基本功千川应用投放篇进阶篇素材创作问题诊断.mp4
- 千川投流实战课:0-1打品思路,涵盖思维打法、数据分析与人群包实操教学.mp4
- ctf攻防挑战赛基础工具包,基础必备,种类齐全
- 变频器资料:英威腾CHE100-2406变频器资料,应用文档 非常适合学习 资料属于文档
- 轻松制作创业类视频。一天被动加精准创业粉500+(附素材).mp4
- 基于自适应代理辅助的多目标进化算法框架(ASA-MOEA/D)求解昂贵约束优化问题
- 大数据(选修)期末复习资料.7z
- 非线性结构分析中的弧长法:原理、实现与应用
- 十年 一遇 市场机遇,明确指引方向,转换思维,坚定执行,方能不被时代....mp4
- 视频号【灵狐赛道2.0】一条视频三种收益 100%原创 小白三天收益破百.mp4
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功