没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
试读
69页
Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。以 Hadoop 分布式文件系统和 MapReduce为核心的 Hadoop为用户提供了系统底层细节透明 的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将 Hadoop部署 在低廉的硬件上,形成分布式系统,MapReduce分布式编程模型允许用户在不了 解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用 Hadoop 轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集 群的计算和存储能力,完成海量数据的处理。
资源推荐
资源详情
资源评论
基于 Hadoop数据分析系统
设计毕业论文
目录
第一章 某某企业数据分析系统设计需求分析 ........................... 1
第二章 HADOOP简介 ................................................ 2
第三章 HADOOP单一部署 ............................................ 5
3.1 H
ADOOP
集群部署拓扑图 ......................................... 5
3.2 安装操作系统 C
ENTOS
........................................... 6
3.3 H
ADOOP
基础配置 .............................................. 12
3.4 SSH免密码登录 .............................................. 16
3.5 安装 JDK .................................................... 17
3.6 安装 H
ADOOP
.................................................. 17
3.6.1安装 32 位 Hadoop .......................................... 18
3.6.2安装 64 位 Hadoop .......................................... 27
3.7 H
ADOOP
优化 .................................................. 31
3.8 H
IVE
安装与配置 .............................................. 32
3.8.1 Hive 安装................................................. 32
3.8.2 使用MySQL存储Metastore.................................. 32
3.8.3 Hive 的使用............................................... 35
3.9 H
BASE
安装与配置 ............................................. 36
9.1 Hbase 安装.................................................. 36
9.2 Hbase 的使用................................................ 38
3.10 集群监控工具 G
ANGLIA
......................................... 41
第四章 HADOOP批量部署 ........................................... 47
4.1
安装操作系统批量部署工具 C
OBBLER
............................... 47
1
4.2
安装 H
ADOOP
集群批量部署工具 A
MBARI
.............................. 53
第五章 使用 HADOOP分析日志 ....................................... 62
第六章 总结 ...................................................... 66
第七章 参考文献 .................................................. 66
致谢............................................................... 67
第一章 某某企业数据分析系统设计需求分析
某某企业成立于 1999 年,其运营的门户每年产生大概 2T 的日志信息,为了
分析的日志,部署了一套 Oracle 数据库系统,将所有的日志信息都导入 Oracle
的表中。随着时间的推移,存储在 Oracle 数据库中的日志系统越来越大,查询
的速度变得越来越慢,并经常因为查询的数据量非常大而导致系统死机。日志信
息的分析成为了 XX企业急需解决的问题,考虑到单机分析的扩展性与成本问题,
且 XX企业当前有一部分服务器处于闲置状态,最终决定在现有服务器的基础上
部署一套分布式的系统来对当前大量的数据进行分析。结合淘宝目前已经部署成
功的数据雷达系统,同时由于 XX企业预算有限,为了节约资金,决定采用开源
的 Hadoop来部署公司的数据分析系统。
采用 Hadoop集群优势:
1. 高可靠性,能够维护多个工作数据副本,确保能够针对失败的节点重新分布
处理。
2. 高扩展性,在计算机集簇间分配数据并完成计算,这些集簇可以很容易扩展
到数以千计的节点中去。
3. 高效性,以并行的方式工作,通过并行处理加快处理速度。
4. 高容错性,自动保存数据多个副本,并能够自动将失败任务重新分配。
5. 廉价性,框架可以运行在任何普通的 PC上。
采用 Hadoop集群劣势:
1. 采用单 master 的设计,单 master 的设计极大地简化了系统的设计和实现,
由此带来了机器规模限制和单点失效问题。
2. 编程复杂,学习曲线过于陡峭,让许多人难以深入。
3. 开源性,在广大社区维护不断推进 Hadoop 的发展的同时,一旦代码出现漏
洞并未被发现,而又被有心的人利用,将会对数据的安全造成毁灭性的后果。
2
4. 缺乏认证,Hadoop并没有对使用 Hadoop的权限进行细致的划分。
第二章 Hadoop简介
Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。以 Hadoop
分布式文件系统和 MapReduce为核心的 Hadoop 为用户提供了系统底层细节透明
的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将 Hadoop 部署
在低廉的硬件上,形成分布式系统,MapReduce分布式编程模型允许用户在不了
解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用 Hadoop
轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集
群的计算和存储能力,完成海量数据的处理。
2.1 Hadoop生态系统
Hadoop已经发展成为包含多个子项目的集合。核心容是 MapReduce和 Hadoop
分布式文件系统(DHFS)。它也包含了 Common、Avro、Chukwa、Hive、Hbase 等
子项目,他们在核心层的基础上提供了高层服务,为 Hadoop的应用推广起到了
重要作用。如图 2.1 所示:
图 2.1 Hadoop 结构图
Hadoop Core/Common
从 Hadoop 0.20 版本开始,Hadoop 的 Core 项目便更名为 Common.,它是
Hadoop 体系最底层的一个模块,为 Hadoop 各子项目提供各种工具,主要包括
FileSystem 、PRC和串行化库。
3
Hive
hive 是基于 Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为
一数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce
任务进行运行。 其优点是学习成本低,可以通过类 SQL语句快速实现简单的
MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据仓库的统计分
析。
Hbase
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所
撰写的 Google 论文“Bigtable :一个结构化数据的分布式存储系统”。就像
Bigtable 利用了 Google 文件系统(File System )所提供的分布式数据存储一
样,HBase在 Hadoop之上提供了类似于Bigtable 的能力。HBase是 Apache的
Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构
化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
Avro
Avro 是 doug cutting 主持的 RPC项目,有点类似 Google 的 protobuf 和
Facebook 的 thrift 。是用于数据序列化的系统。提供了丰富的数据结构类型、
快速可压缩的二进制数据格式、存储持久性数据的文件集、远程 PRC调用以及简
单的动态语言集成功能。
MapReduce
实现了 MapReduce编程框架,用于大规模数据集的并行运算。能够使编程人
员在不理解分布式并行编程概念的情况下也能方便将自己的程序运行在分布式
系统上。
HDFS
分布式文件系统,其设计目标包括:检测和快速恢复硬件故障;数据流的访
问;简化一致性模型等。
ZooKeeper
Zookeeper 是 Google 的 Chubby一个开源的实现。它是一个针对大型分布式
系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组
服务等。ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单易用的接
口和性能高效、功能稳定的系统提供给用户。
4
Pig
Pig 是 SQL-like 语言,是在 MapReduce上构建的一种高级查询语言,把一
些运算编译进 MapReduce模型的 Map和 Reduce 中,并且用户可以定义自己的功
能。Yahoo网格运算部门开发的又一个克隆 Google 的项目 Sawzall 。
Chukwa
Chukwa是基于 Hadoop的大集群监控系统,是开源的数据搜集系统。通过 HDFS
来存储数据,并依赖 MapReduce 来处理数据。
2.2 Hadoop在互联网的应用
淘宝
淘宝 Hadoop集群现在超过 1700 个节点,服务于用于整个阿里巴巴集团各部
门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系统日志以
及爬虫数据,截止 2011 年 9 月,数量总量已经超过 17 个 PB,每天净增长 20T
左右。每天在 Hadoop集群运行的 MapReduce任务有超过 4 万(有时会超过 6 万),
其中大部分任务是每天定期执行的统计任务,例如数据魔方、量子统计、推荐系
统、排行榜等等。这些任务一般在凌晨 1 点左右开始执行,3-4 个小时全部完成。
每天读数据在 2PB左右,写数据在 1PB左右。
百度
度对海量数据处理的要求是比较高的,要在线下对数据进行分析,还要在规
定的时间处理完并反馈到平台上。百度在互联网领域的平台需求下所示,这里就
需要通过性能较好的云平台进行处理了,Hadoop 就是很好的选择。在百度,
Hadoop主要应用于以下几个方面:
日志的存储和统计;
网页数据的分析和挖掘;
商业分析,如用户的行为和广告关注度等;
在线数据的反馈,及时得到在线广告的点击情况;
用户网页的聚类,分析用户的推荐度及用户之间的关联度。
Facebook
Facebook 作为全球知名的社交,拥有超过 3 亿的活跃用户,其中约有 3 千
万用户至少每天更新一次自己的状态;用户每月总共上传 10 亿余照片、1 千万个
视频;以及每周共享 10 亿条容,包括日志、、新闻、微博等。因此 Facebook 需要
剩余68页未读,继续阅读
资源评论
Rocky006
- 粉丝: 6403
- 资源: 1332
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Python绘图画板程序 自由绘制 直线 矩形 椭圆 画笔调整 PyQt6
- 555555555.MP3
- 一个简单好用的 Vue3 项目启动套件-从项目构建到开发(开箱即用)
- 813731243373942app.apk
- NRF24L01无线串口模块软硬件资料(参考原理图+上位机+软件例程通信程序+技术文档).zip
- 30条linux 常用命令基础知识总结.zip
- 毕业设计基于Python+Flask的图文直播平台源码+详细使用说明.zip
- 常用电子电路元器件芯片AD封装库PCB封装库2D3D封装库(555个)+AD设计精美PCB直尺大全(30个).zip
- 人脸图像生成-基于Pytorch实现的人脸图像生成StarGAN算法-附项目源码+流程教程-优质项目实战.zip
- PPO-基于Pytorch实现裁剪目标近端策略优化-附项目源码+流程教程-优质项目分享.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功