没有合适的资源?快使用搜索试试~ 我知道了~
大数据Hadoop平台下数据存储技术研究.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 120 浏览量
2022-06-21
19:18:15
上传
评论
收藏 2.82MB PDF 举报
温馨提示
试读
28页
。。。
资源推荐
资源详情
资源评论
大数据 Hadoop 平台数据存储技术研究
目录
目录 .....................................................................................................................................................................
摘要 .................................................................................................................................................................... I
ABSTRACT..................................................................................................................................................... II
引言 ................................................................................................................................................................... 1
1 绪论 ............................................................................................................................................................. 2
1.1 大数据简介 ........................................................................................................................................... 2
1.2 H
ADOOP
简介 ........................................................................................................................................ 3
1.2.1 Hadoop的优点
............................................................................................................................ 3
1.2.2 Hadoop的架构
............................................................................................................................ 4
1.2.3 Hadoop的组成
............................................................................................................................ 5
2 虚拟机下 CENTOS7.0 的装载和配置 ...................................................................................................... 7
3 HADOOP 平台的搭建和基本配置 ......................................................................................................... 11
3.1 安装 JDK............................................................................................................................................. 11
3.2 SSH 免密码登陆................................................................................................................................. 12
3.2 安装配置 H
ADOOP
.............................................................................................................................. 13
4 HADOOP 平台下数据存储的分析和研究 ............................................................................................. 16
4.1 用命令进行文件存储和读取 ............................................................................................................. 16
创建目录
................................................................................................................................... 16
显示目录以及网页图形化界面
............................................................................................... 16
本地文件存入目录以及网页图形化界面
............................................................................... 17
显示 HDFS 下文件内容以及网页图形化界面
.......................................................................... 18
显示 HDFS 下文件大小
............................................................................................................. 19
显示 HDFS 下文件的信息
......................................................................................................... 19
在 HDFS 下复制文件
................................................................................................................. 19
保存至本地文件
....................................................................................................................... 20
从本地移动文件
....................................................................................................................... 20
4.2 用 API 进行文件存储和读取............................................................................................................. 21
4.1.1
4.1.2
4.1.3
4.1.4
4.1.5
4.1.6
4.1.7
4.1.8
4.1.9
5 HDFS 中的大量小文件存储问题 ............................................................................................................ 22
5.1 小文件存储问题简介 ......................................................................................................................... 22
5.2 小文件存储问题的解决方法 ............................................................................................................. 22
5.2.1
5.2.2
5.2.3
5.2.4
Archive工具
............................................................................................................................ 22
CombineFileInputFormat类
.................................................................................................. 23
SequenceFile格式
.................................................................................................................. 23
其他方法
................................................................................................................................... 23
参考文献 ......................................................................................................................................................... 24
摘要
伴随着各种电子产品和网络的蓬勃发展,互联网上的数据正在以爆炸般的模式增
长着,信息量逐渐从最小的字节增长成为 TB 乃至 PB 级的海量数据。越来越多的信
息量成为了一个难题,对于摒弃它们还是从中获取价值的这个选择题也逐渐有了显而
易见的答案。但是面对如此严峻的形势,我们该如何从大量的数据中获取有价值的信
息,并且对这些数据进行高效、精准的处理呢。就在此时,人们将目光移向了 Hadoop,
一个开源的能够对大量数据进行分布式处理的文件系统和并行计算编程模型。
本文将要介绍 Hadoop 的伪分布式集群具体的搭建过程和以 HDFS 为代表的分布
式文件存储系统的数据存储平台的设计与实现。并且对于 HDFS 本身仍面临的一些
问题进行性能优化和解决。
首先 Hadoop 适宜在 Linux 系统上进行,所以先介绍 centos 系统的安装和配置过
程;然后在 centos 系统下进行 Hadoop 伪分布式集群的搭建和基本配置;之后进行一
系列的文件、数据的存储和读取应用;最后对于 HDFS 目前仍具有的一些问题进行分
析和假定并对其进行性能优化。
关键字:海量数据; Hadoop Access centos HDFS
I
ABSTRACT
Along with the vigorous development of vrious electronic products and network, the
data on the Internet is growing in an explosive mode, information gradually from the smallest
byte growth become terabytes and petabytes of huge amounts of data. More and more
information has become a difficult problem, the choice problem to eliminate them or obtain
the value of them also gradually had obvious answer. But faced with such serious situation,
how shoule we get valuable information from a large amount of data, and how to process
them efficiently and precisely. Just then, people all look at Hadoop , an open sourse and can
be distributed processing of large amounts of data file system and parallel computing
programming model.
This article will introduce the Hadoop’s pseudo distributed cluster specific building
process and represented by HDFS data storage platform of distributed file storage system
design and implementation. And for the HDFS itself still faces some problem problems,
performance optimization and to solve.
Hadoop is appropriate on Linux system first, so first introduce centos system
installation and configuration process; Then under the centos system Hadoop pseudo
structures, and the basic configuration of the distributed clusters; After a series of documents,
data storage and reading application; The final analysis for HDFS still has some problems
and assumptions and performance optimization.
Keywords:huge amounts of data
; Hadoop; Access;
centos
;
HDFS
II
大数据 Hadoop 平台下数据存储的研究与实现
引言
21 世纪网络迅猛发展着,随之而来的是信息量的超快速增长,如何正确、快速地
处理海量数据并且得到所需要的信息已经成为了一个难点和热点,越来越多的企业开
始关注海量数据。
本次毕业设计——大数据 Hadoop 平台下数据存储的研究与实现,是在 Linux 操
作系统下,以 Hadoop 为大数据开发平台,利用其伪分布式集群形式,在以 HDFS 为
代表的分布式文件存储系统下实现大量数据文件的存储和读取。
而 HDFS 的全称是分布式文件系统,设计目标是检测并快速处理硬件故障,数据
流访问和简化一致性模型等。
本论文主要内容为 Hadoop 平台下的大数据存储问题。第一章为绪论部分,包括
大数据的简介、Hadoop 的简介;第二章为虚拟机 centOS 的装载和配置;第三章为在
装载好的虚拟机下 Hadoop 平台的搭建和基本配置;第四章为在搭建好的 Hadoop 平台
下进行的一系列存储和读取操作以及方法演示和端口查看结果等;第五章为 Hadoop
的存储结构目前仍具有的问题以及一些改进方法和假设。
1
剩余27页未读,继续阅读
资源评论
xxpr_ybgg
- 粉丝: 6478
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功