没有合适的资源?快使用搜索试试~ 我知道了~
基于Storm平台的数据恢复节能策略.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 6 浏览量
2022-06-10
16:41:09
上传
评论
收藏 3.23MB DOCX 举报
温馨提示
试读
50页
基于Storm平台的数据恢复节能策略.docx
资源推荐
资源详情
资源评论
近年来,随着各种功能强大的高速互联技术的出现,物联网场景
下产生的数据量日益增多,对计算能力的需求日益增长,高性能集群
由于其高性价比、高可用性以及可扩展性等特点
已成为商业应用与学
术研究的基础架构但是各种高性能集群在处理数据时产生的高能耗问
题同样不容忽视高德纳公司指出预计到 年,全球数
据中心占比 的大型数据中心其电费支出超过 亿美元
,而
预计 年,全球数据中心的能耗产值为 亿
我国数
据中心的总耗电量同样惊人,截至 年中国数据中心的总耗电量
为 亿 ,占全国总用电量的
高额的能耗成本已
对社会与环境造成巨大影响,因此解决 行业的高能耗问题已经刻不
容缓
希捷公司与 ! 联合发布的《数据时代 》白皮书
中预测, 年全球数据量将达到 "#其中,超过 的数据
将成为实时数据,而物联网实时数据占比将达到实时数据的
针
对大数据处理的高性能集群一般分为批量计算框架与流计算框架 类
其中批量计算框架由于存在先存储后计算的特性无法满足实时数据的
处理需求;而流计算框架由于其强大的实时性,为实时大数据分析提
供了良好的平台层解决方案
但是流式计算在高速处理实时数据的过
程中同样伴随着高能耗的问题
,因此流计算框架的节能优化是一个亟
待解决的问题
目前针对大数据流式处理的平台主要以 $%&'( 框架
为主
'( 是一个主从式架构、开源、横向扩展性良好且容错能力强的分
布式实时处理平台,其编程模型简单,支持包含 )* 在内的多种编程
语言,且数据处理高效与不开源的 +,(
以及社区冷淡的
相比,
'( 具有更活跃的社区发展;与属于微批的 %(-
框
架 相 比 , '( 具 有 更 稳 定 的 集 群 性 能 ; 与 后 起 之 秀 ./-
与
0'
相比,'( 具有更成熟的平台架构和更广泛的产业基础目
前 '( 凭借低延迟、高吞吐的性能优势以及高效的容错机制
,已
经成为华为、百度以及小米等企业针对流数据处理业务的最佳选择,
被誉为“实时处理领域的 01''%2
在 '( 框架中,流式作业拓扑中的 个任务通常运行于 个
工作线程内, 个工作进程包含有多个工作线程但当 '( 集群拓扑
在处理任务出现计算资源不足或拓扑报错时,缺乏合理的应对策略,
从而对集群拓扑任务处理的计算延迟与能耗造成影响,具体体现有
点:集群拓扑在执行任务时,工作节点可能会出现资源瓶颈的问题,
工作节点的资源接近溢出,其功率不断增大,集群的计算延迟不断上
升,对集群的性能与能耗造成巨大影响;拓扑在执行任务时,由于
网络等问题而出现错误,需要终止拓扑内的任务并从磁盘重新读取数
据,但是从磁盘读取数据存在较高的计算延迟与能耗,会对集群拓扑
任务的正常执行造成一定的影响因此,为了解决该问题本文提出基于
'( 平台的数据恢复节能策略345&-63761
'1&'*3-'(8 94'(,该策略在降低集群出现
过高计算延迟的基础上,保证集群拓扑任务的顺利执行并有效节约能
耗
本文的主要贡献包括 个方面:
通过分析 '( 框架的任务逻辑,建立任务分配模型,用于描
述集群内工作节点间任务分配的逻辑关系,为后续监控集群拓扑内的
元组信息提供帮助,并为研究集群拓扑内的任务执行情况奠定了理论
基础
根据任务分配模型,建立了拓扑信息监控模型,通过监控反馈
信息判断是否终止拓扑内的任务,并进一步建立数据恢复模型,其中
是否对集群拓扑进行数据恢复由拓扑信息监控模型反馈的元组信息决
定在确定终止集群任务后,对集群拓扑进行数据恢复
根据拓扑信息监控模型与数据恢复模型,建立能耗模型,并在
此基础上提出基于 '( 平台的数据恢复节能策略,该策略包括吞吐
量检测算法与数据恢复算法,其中吞吐量检测算法通过监控拓扑内的
元组信息计算集群吞吐量,判断是否终止集群拓扑内的任务;而数据
恢复算法根据吞吐量检测算法执行情况,确定是否对集群拓扑进行数
据恢复此外,实验选取 个代表不同作业类型的基准测试
,从不同
角度验证了算法的有效性
1 相关工作
目前针对 '(,./-,%(-,0' 等主流大
数据流式计算框架的节能研究相对较少但是 行业日益增长的高能耗
问题,已经严重制约着平台的发展因此针对大数据流式计算框架的节
能优化已经刻不容缓,是未来重要的研究方向目前针对大数据流式计
算框架的节能研究主要集中于硬件节能
、软件节能
与软硬件结合
种方法
硬件的节能主要基于 种思路:通过用低能耗、高效率的电子
元件替换高能耗、低效率的电子元件
;对集群的节点电压进行缩放
管理
种思路的节能效果显著,但是由于其价格高昂,且对节点电
压进行缩放管理存在较大误差,因此不适合部署在大规模的集群当中
蒲勇霖等人
通过对 '( 集群工作节点的内存电压进行动态调节,
在不影响集群性能的条件下分别节约了系统 与 的能
耗- 等人
提出了一种混合内存的节能策略,通过用低能耗高效率
的 +9$:%///1'(&&66(&-替换高能耗低效率的
9$:13(-&1'(&&66(('3,从而达到提高集群性
能并降低能耗的目的实验结果表明该策略降低了集群 ~的
能耗+-- 等人
通过将流式处理平台的部分 !+; 替换成 +;,使得
!+; 与 +; 进行混合,从而减少了集群处理图数据的能耗,实验结果
表明在节约 能耗的前提下减少了 的访问时间文献
通 过 使 用 动 态 电 压 频 率 缩 放 技 术 13(-&*'/<=,&3
6&/-8 >.,对集群节点的 !+; 电压进行了动态缩放管理,以此
达到了节能的效果文献4通过替换高能耗、低效率的电子元件,
在提高集群性能的基础上节约了能耗
软件与软硬件结合的节能策略是目前研究的重点,其中软件的节
能主要根据建立能耗感知模型
与通过资源调度
提高集群的能效,以
达到节能的目的文献根据分析 %(- 框架的基本特
性,提出一种自适应调度作业的节能策略,该策略通过在集群中建立
能耗感知模型,对集群内的数据信息进行实时捕捉,从而分析集群任
务的实际运行情况,根据不同任务的执行结果对集群的性能与能耗进
行调控实验表明该策略降低了集群的时间开销并节约了能耗文献
提出一种作用于 %(- 的能耗分析基准测试方法,该方
法通过使用机器学习算法,查找集群内数据流的大小与通信开销的平
衡,实验结果表明当集群内数据流的大小与通信开销达到平衡时,集
群执行任务的功耗最小
文献对流式大数据处理的框架进行了优化,提出了一种基于
'( 框架的实时资源调度节能策略,该策略通过构建 '( 的能耗、
响应时间以及资源利用率之间的数学关系,获得了满足高能效和低响
应时间的条件,并以此建立了实时资源调度模型,该模型在实现最佳
能效的前提下,对集群的资源进行调度然而该策略还存在 点值得探
讨:节能策略只考虑了 !+; 的资源利用率与能耗,忽视了集群其他
电子元件内存、网络带宽与磁盘等的资源利用率与能耗由于流式处
理集群的实时性较高,其他电子元件的资源利用率与能耗对其影响巨
剩余49页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3587
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功