Hadoop的大规模数据交换资源-CSDN文库

共1个文件

pdf：1个

Hadoop大规模

需积分: 10 9 浏览量 2014-09-17 11:33:49 上传评论 1 收藏 322KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Hadoop 的大规模数据交换的研究.zip （1个子文件）

基于Hadoop 的大规模数据交换的研究.pdf 329KB

http://www.paper.edu.cn

- 1 -

中国科技论文在线

基于 Hadoop 的大规模数据交换的研究

佘影，吴斌

作者简介：佘影，男。

通信联系人：吴斌，男，副教授，基于分布式的数据挖掘. E-mail: bwu@tseg.org

（北京邮电大学计算机学院，北京 100876）

摘要：随着“大数据”的持续增长和信息货币化越来越重要，越来越多的企业加入到构建数5

据仓库和寻求数据分析解决方案的队伍中来。Hadoop 由于其出色的非结构话和半结构话数

据的分析能力，以及其廉价的大规模集群解决方案使其成为了大多数企业青睐的对象。然而

另一方面，关系数据库对于结构化数据的快速查询的能力却是 Hadoop 没有的。因此，企业

的数据总是存储于关系型数据库中，以满足快速查询的需要。尽管同时使用 Hadoop 和关系

数据库可以弥补彼此的不足。然而令人无奈的是，当使用一方作为数据源时，我们无法从另10

一方自由地进行查询。终于在 Hadoop 0.19 版本时，新增的 DBInputFormat 组件可以轻松地

在 Hadoop 与许多关系型数据库之间导入导出数据。与此同时，许多第三方的数据交换工具

如雨后春笋般出现在人们的视野中。本文将着重阐述几种数据交换工具间的差异和不足，进

而分析优化的方式，最后从性能上比较上述几种数据交换工具。

关键词：Hadoop；关系型数据库；数据交换 15

中图分类号：TP311

An Research on Hadoop-based Massive Data Migration

SHE Ying, WU Bin

(Beijing University of Posts and Telecommunications, School of Computer Science, 20

Beijing 100876)

Abstract: As “big data” growth and the importance of monetizing this information continue, more

companies are joining a growing ecosystem of data warehousing and analytics solutions. Hadoop

becomes the winner of all. There’s been a flurry of announcements recently in the Hadoop world.

But Hadoop’s strength is that it enables ad-hoc analysis of unstructured or semi-structured data. 25

Relational databases, by contrast, allow for fast queries of very structured data sources. A point of

frustration has been the inability to easily query both of these sources at the same time. The

DBInputFormat component provided in Hadoop 0.19 finally allows easy import and export of data

between Hadoop and many relational databases. Meanwhile, There are some other Data Exchange

tools. In this paper, we compare several Data Exchange Tools, and finally, we will propose a new 30

Data Exchange Tool for Hadoop to access RDBMS.

Keywords:

Hadoop; RDBMS; Data Exchange

0 引言

Hadoop MapReduce[1]是非常强大的工具；它在处理和分析非结构和办结构数据的灵活35

性使很多创新应用成为可能。但是 Hadoop 的强大分析功能是建立在数据可用的基础上。在

很多的企业中，大量有用的信息被锁在独立分散的数据库中。尽管 Hadoop 的分布式文件系

统——HDFS[2]，可以将所有数据集中起来。然而这么做的工作量是非常巨大的。

在 Java 或是其他编程语言中使用 JDBC 和 ODBC 来连接数据库对于大多数程序员来说

是再熟悉不过的了。然而处理 Hadoop 和关系型数据库间的数据交换时，有两个至关重要的40

问题是不得不考虑的：规模和负载均衡。对于 Hadoop 集群拥有成百上千的节点数量那是再

正常不过了，每次操作都可能会涉及几十或者上百 TB 的数据。对于无共享的架构来说，每

个节点都是独立的，为了达到最大的吞吐量，计算任务和数据必须跨执行线程分割，否则将

有某个节点工作过多而造成总时间拖慢。因此，数据交换的模块必须要支持一种并行的策略。

http://www.paper.edu.cn

- 2 -

中国科技论文在线

为了解决 HDFS 与关系型数据库间的数据交换问题，Hadoop 从版本 0.19 开始支持45

DBInputFormat[3]，它使得在 Hadoop 与关系型数据库之间导入导出海量数据成为可能。但

是 DBInputFormat 有比较严重的性能问题，因为它在查询时使用了 LIMIT 和 OFFSET 来进

行分割，另外，DBInputFormat 在设置参数时还需要提供描述表结构的用于序列化和反序列

化的类，因此使用不是很方便，尤其是对于一个结构未知的表。由 Cloudera 开发的 Sqoop[4]，

虽然在实现上避免了使用 LIMIT 和 OFFSET，并且可以自动地生成必要的用来描述表结构50

的类，从而已经大大简化了 DBInputFormat 的使用，但是在切分表的时候会由于切分不均匀

而导致有的 Map 很快完成，而有的 Map 负载过重，这样的后果就是总执行时间很慢，所以

Sqoop 只适合用来处理数据均匀分布的表。Cascading[5]是一套基于 Hadoop 的 API，它提供

了复杂和容错数据处理工作流创建和管理的功能。它抽象了集群拓扑结构和配置来快速开发

复杂分布式的应用，而不用考虑背后的 MapReduce。Cascading.jdbc 是 Cascading 用来连接55

数据库的接口，它采用了与 DBInputFormat 相同的方式，因此也有性能问题，但值得一提的

是 BackType[6]针对这一问题优化后的 Cascading.dbmigrate，它避免了使用 LIMIT 和 OFFSET

而专门针对数字型的主键进行分割，而且必须是均匀分布的数据，否则就会出现和 Sqoop

类似的性能问题。

1 现有工具分析 60

本章中我们将重点讲解现有数据交换方式的工作原理，为之后的分析做铺垫。这里我们

主要讨论从数据库导入 HDFS 的策略，因为导出数据的时候，数据分片是位于 MapReduce

流程中的 Shuffle 阶段，是由 Hadoop 来完成。数据交换工具所做的工作紧紧是把数据转换

成 Sql 语句然后执行。

1.1 DBInputFormat 65

DBInputFormat 使用 JDBC 来连接数据库，这里我们以 MySQL 为例来进行解释。它的

基本思想是，客户提供一条 SQL 查询语句，DBInputFormat 分配给每个 mapper 一条修改过

的 SQL 查询语句，然后每个 mapper 并行地发送查询请求并得到结果的一部分，而这些所有

的结果合起来刚好就是原始 SQL 语句的查询结果。

在任务初始化的阶段，客户需要设置的参数包括表名 T，一个导出的列的集合 P，可选70

的过滤条件 C 以及用来对结果排序的列名 O。当然，除此之外还需要数据库 URL、用户名、

密码等基本参数。DBInputFormat 在启动 MapReduce 之前首先根据输入参数创建一条 Count

查询语句，来得到结果的总条数 R。然后根据 N 和输入 Mapper 的数量 M 计算出每个 Mapper

对应的 DBInputSplit 包含的数据在表中得起始偏移量，流程图如图 1 所示。

在各个任务执行的子节点，即 Tasktracker 上，Mapper 通过调用 DBRecordReader 的接75

口并行地连接到数据库，并提交一条类似于如下的查询语句：

select P from T where C order by O limit L offset X

这样，每个 Mapper 就可以得到结果集的一部分。其中 L 和 X 是通过每个 DBInputSplit

的起始偏移量计算得出，对于第 i 个 Mapper 有：

, 80

基本上所有 Mapper 拿到的结果大小都是相同的，除了最后一个 Mapper 拿到的结果比

其他的 Mapper 都要多，因为 R 不一定刚好能被 M 整除，但这对总时间的影响可以忽略。

Tasktracker 上任务执行的流程图如图 2 所示。

评论收藏

内容反馈

T0nsir

粉丝: 7
资源: 29

Hadoop 的大规模数据交换

基于Hadoop的大规模数据交换的研究

spoop大数据交换工具

论文研究-基于Hadoop的大规模数据交换的研究 .pdf

基于Hadoop的大规模图像数据处理.pdf

JAVA使用Apache Hadoop实现大规模数据处理.txt

基于R和Hadoop的大规模数据主成分分析

腾讯大规模Hadoop集群实践

基于云计算和大数据技术的数据交换平台白皮书v4.pdf

Hadoop大数据开发.pptx

基于元数据和安全事件的大数据分析.pdf

第七章-《大数据导论》大数据处理平台.pdf

大规模Hadoop集群运维经验谈

翟艳堂：腾讯大规模Hadoop集群实践

大数据时代政务大数据安全的研究与设计.pdf

发挥医疗大数据的价值.pdf

云计算系统架构文档 下

大数据与图书馆服.pptx

软件技术《行业标准-人工智能》.doc

Apache Kylin-Hadoop上的大规模联机分析平台.ppt

基于Hadoop、Spark及Flink大规模数据分析的性能评价

ApacheKylin-Hadoop上的大规模联机分析平台.pdf

基于Hadoop平台的大规模图像处理模型

韩卿：Apache Kylin－Hadoop上的大规模联机分析平台

BSP中基于边缘聚类的大图划分和迭代处理

Kylin–基于Hadoop的大规模联机分析引擎.pdf

基于Hadoop的大规模网络安全实体识别方法.pdf

最新资源

云计算系统架构文档下