没有合适的资源?快使用搜索试试~ 我知道了~
www.cn-ki.net_基于Kubemetes的大数据流式计算Spark平台设计与实现1
需积分: 0 0 下载量 80 浏览量
2022-08-03
22:24:37
上传
评论
收藏 4.44MB PDF 举报
温馨提示
试读
68页
摘要目前,云平台主要是基于传统的虚拟机技术来实现底层物理资源的管理和弹性伸缩,在启停速度、资源利用率、运维监控以及性能上有较大的资源开销。大数据计算框架部署在云
资源详情
资源评论
资源推荐
单位 代
码
:
1 0 2 9 3
密
级 :
.
部
|
考
此
嗲 傈
领
士
讼
式
论
文
题
目
:
基
于
K
u b
e
m
e
t
e s
的
大
数据 流
式
计
算
S pa
r
k
平
台
设
计
与
实
现
学
号
1 2 1 4 04 3 0 09
姓
名
杜
威
科
导
师
肖
甫
教
授
专
业
学 位 类 别
工
程
硕
士
类
型
全
日
制
专
业
(
领
域
)
计
算
机
技
术
论 文提交 曰
期
二
零
—
b 年
三
月
Design and Implementation of Spark Platform
for Big Data Streaming Computing
Based on Kubernetes
Thesis Submitted to Nanjing University of Posts and
Telecommunications for the Degree of
Master of Engineering
By
Weike Du
Supervisor: Prof. Fu Xiao
March 2017
南京邮电大学学位论文原创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。
尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过
的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。
与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。
南京邮电大学学位论文使用授权声明
本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文
档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索;
可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质
论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。
涉密学位论文在解密后适用本授权书。
研究生签名:_____________ 日期:____________
研究生签名:____________ 导师签名:____________ 日期:_____________
I
摘要
目前,云平台主要是基于传统的虚拟机技术来实现底层物理资源的管理和弹性伸缩,在
启停速度、资源利用率、运维监控以及性能上有较大的资源开销。大数据计算框架部署在云
平台上是一种典型的应用场景,面对海量大数据的增长,传统云平台构架和处理方式无法有
效应对大数据的处理环境。
作为新兴的轻量级虚拟化容器技术,以
Docker
容器作为基本单位为开发人员提供快速构
建、部署和移植分布式应用,极大的简化开发者的部署运维流程,降低服务器成本。
Kubernetes
是
Google
自动部署和管理大规模
Docker
容器应用的开源系统,对容器化的应用提供资源调
度、自动部署、服务发现、弹性伸缩等一整套功能,对大数据分布式计算框架
Map-Reduce
也提供良好的支持。当然,
Docker
有关安全、存储等方面还有不足之处,在成为云平台构建
基础上还处于快速发展的阶段。
本文重点设计实现了以虚拟化
Docker
容器作为大数据的底层承载平台,以
Kubernetes
作为容器管理、调度系统,部署了基于
Dokcer
容器的
Spark
大数分布式计算框架。容器化的
大数据平台可以极大的提高资源利用率和计算并行度,简化了运维管理成本,并能够应对实
时负载,弹性伸缩
Spark
计算节点。针对基于
Kubernetes
部署
Spark
集群,本文的主要工作
如下:
(
1
)实现
Docker
容器跨主机通信。
Docker
本身不具备跨主机通信能力,利用
flannel
建
立一个叠加网络(
Overlay Network
),实现了不同物理主机上的容器通信的能力。
(
2
)基于
Kubernetes
系统设计实现了
Spark
集群。本文分析了
Spark
集群的通信机制,
使用
dockerfile
构建
Spark
镜像,设计实现了基于
kubernetes
平台的大数据流式计算
Spark
集
群,可以快速部署并横向扩展
Spark
集群。
(
3
)设计实现了基于负载的
Spark
节点弹性伸缩。针对
Docker
容器的资源监控,采集
各个
Node
节点上的容器资源使用数据,根据实时负载对
Spark
节点执行响应的伸缩活动。
(
4
)对该平台进行了部署和测试。实验表明,使用
Docker
容器构建
Spark
框架,能够
提高资源利用率、简化运维流程等,验证了该系统的可行性和有效性。
关键词: 云计算, Docker, Kubernetes, Spark, 弹性伸缩
II
Abstract
Nowadays, the cloud platform is based on the traditional virtual machine technology (VM) to
achieve the hardware resources management and flexible scalability.There is a greater resource
overhead on the speed of starting and stopping, resource utilization, operational monitoring and
performance .The big data computing framework deployed in the cloud platform is a typical
application scenario.With the rapid growth of the amount of data,the traditional cloud platform
architecture and processing methods can not effectively adapt to the big data processing
environment.
With the advent of lightweight container technology, Docker Container provides developers
with the ability to rapidly build, deploy and migrate distributed applications ,and greatly simplifies
the deployment process and reduces the server costs. Kubernetes is an open source system for
automating the deployment and management of large-scale Docker container applications.It
provides the scheduling of resources, automatic deployment, service discovery, and flexible scaling
for the containerized applications, and it offers support for the big data distributed computing
frameworks Map-Reduce.Of course, Docker is deficiency in security, storage and other aspects, and
it is still in the stage of rapid development for the cloud platform.
This paper focuses on the realization of the deployment of Spark distributed computing
framework based on Docker containers, with the virtualization container Docker as the lowwer
bearing platform and the Kubernetes as a container management and scheduling system.The
containerized big data platform can greatly improve resource utilization and computational
parallelism, simplify operation and maintenance management costs, and be able to automatically
scales the Spark computing nodes according to the real-time load. For the deployment of Spark
clusters based on Kubernetes, the main research of this paper is as follows:
(1)To realize the communication between the Docker container of different host. Docker itself
does not have the communication capabilities between the host computer. The use of flannel build
an overlay network to achieve the communication capabilities between the different host computer
container.
(2)To design and implementation of the Spark cluster based on the Kubernetes system. This
paper analyzes the communication mechanism of Spark cluster, constructs Spark image using
dockerfile, designs and implements Spark cluster based on kubernetes system, which can rapidly
剩余67页未读,继续阅读
罗小熙
- 粉丝: 17
- 资源: 319
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0