没有合适的资源?快使用搜索试试~ 我知道了~
手把手教你Hadoop环境搭建、词频统计demo及原理
需积分: 50 21 下载量 19 浏览量
2017-11-16
21:14:24
上传
评论 1
收藏 5.23MB DOCX 举报
温馨提示
试读
39页
本文档通过网络资源收集的资料整理,具有较强的实战性,可以一步一步让你从零基础到学会搭建Hadoop服务器,并能利用FS文件系统及mapreduce做词频统计,掌握其基本原理; 其中由于本人已搭建好的原因,有的图截不到,为了表述清楚,于是取自教程中的图片(黑背景部分)作为说明。本文档助你快速踏入大数据大门,祝你学业有成,加油!
资源推荐
资源详情
资源评论
hadoop 入门与环境搭建
目录
hadoop 入门与环境搭建..................................................................................1
一、hadoop 简介.....................................................................................2
1、什么是 hadoop.............................................................................2
2、解决的问题...................................................................................2
3、产生背景...................................................................................... 2
4、扩容能力...................................................................................... 3
5、成本低.......................................................................................... 3
6、高效率.......................................................................................... 3
7、可靠性.......................................................................................... 3
二、应用场景...........................................................................................3
三、Hadoop 生态圈..................................................................................4
四、Hadoop 核心.....................................................................................5
1、Hadoop 项目主要包括以下四个模块.................................................5
2、HDFS 架构...................................................................................5
3、YARN 架构....................................................................................6
4、MapReduce—分布式离线计算框架.................................................7
五、Hadoop 前置环境的安装.....................................................................8
1、Linux 环境准备.............................................................................8
2、JDK 安装.....................................................................................22
3、sodo 权限配置............................................................................24
六、Hadoop 运行模式.............................................................................25
6.1、本地模式................................................................................ 25
6.2、伪分布式................................................................................ 25
6.3、集群模式................................................................................ 25
6.4、Hadoop 伪分布式环境部署与配置.............................................25
七、词频统计原理分析.............................................................................38
修订时间 作者 审核
2017/11/12 22:53
龙哥 龙哥
一、hadoop 简介
1、什么是 hadoop
一个开源、高可靠、可扩展的分布式计算框架。
开源表示我们可以免费的使用它;
高可靠表示数据有备份,如果数据有丢失的话,hadoop 可以通过备份自动进
行恢复,不需要手工恢复,所以非常可靠;
可扩展表示 hadoop 框架的灵活性很高。
什么是分布式呢?
比如有个 100G 的文件,一般情况下是一台机器来处理它,效率肯定会很慢,
那么采用分布式的话,可以由多台机器并行处理,可以是 10 台、20 台……100 台…
…,效率肯定比一台机器高。
2、解决的问题
海量数据的存储(HDFS)
海量数据的分析(MapReduce)
分布式资源调度(Yarn)
3、产生背景
受 Google 三篇论文的启发(GFS、MapReduce、BigTable)
4、扩容能力
能可靠地存储和处理千兆字节(PB)数据。
5、成本低
可以通过普通机器组成的服务器群来分发并处理数据,这些服务器群总计可达
数千个节点。
6、高效率
通过分发数据,Hadoop 可以在数据所在的节点上并行的处理,使得处理非常
的快速。
7、可靠性
Hadoop 能自动维护数据的多份副本,并且爱任务失败后能自动重新部署。
二、应用场景
1、日志分析
2、基于海量数据的在线应用
3、推荐系统
4、计算广告
5、复杂算法
6、网盘
7、搜索引擎
……
注:几乎所有的系统都可以使用 hadoop 集群的方式来处理
三、Hadoop 生态圈
hdfs:存储文件
MapReduce:处理文件
Zookeeper:系统的整个集群通过 Zookeeper 来协作,包括 hadoop 还有 HBASE 都
是通过 Zookeeper 来协作的。
HBase:no-sql 数据库,是分布式的数据库
Hive:是关系型数据库,类似于 mysql,但是比 MySQL 的数据量要大,Hive 处理的
数据量大所以数据离线式查询,需要得到实时数据的可以用 HBase。
Pig:是数据流处理。
mahout:是做推荐用的,比如淘宝的推荐系统还有广告算法……
<ume:主要是收集日志,把收集到的日志导入到 hdfs 中。
sqoop:主要是用来转换数据,比如把关系型数据导入到 hdfs 中,把 hdfs 数据导入到
Hive 中。
四、Hadoop 核心
1、Hadoop 项目主要包括以下四个模块
1.1、Hadoop Common:
为其他 Hadoop 模块提供基础设施。
1.2、Hadoop HDFS:
一个高可靠、高吞吐量的分布式文件系统
1.3、Hadoop MapReduce:
一个分布式的离线并行计算框架
1.4、Hadoop YARN:
一个新的 MapReduce 框架,任务调度与资源管理
2、HDFS 架构
剩余38页未读,继续阅读
资源评论
_小xiao阿哥
- 粉丝: 0
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于SpringBoot Mybatis-Plus TypeScript的微服务多租户SaaS管理快速开发框架 .zip
- 论文复现:QA-GNN: Reasoning with Language Models and Knowledge
- ipp(intel-oneAPI)下载地址.txt
- 基于spring-boot dubbox搭建的java分布式系统的前端管理.zip
- VLC+Qt demoVLC+Qt demo
- 海彪&龙梅子 - 寂寞的人伤心的歌 (DJ版) [mqms2].ogg
- 530springboot + vue 旅游管理系统.zip(可运行源码+数据库文件+文档)
- 基于SpringBoot + Thymeleaf + Layui + Apache Shiro 的后台管理系统 .zip
- 表1:长江大学文理学院课外学分申请表.et
- base.apk
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功