没有合适的资源?快使用搜索试试~ 我知道了~
案例丨Apache Hadoop准实时数据处理的架构模式.pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 14 浏览量
2022-11-25
22:05:22
上传
评论
收藏 468KB PDF 举报
温馨提示
试读
6页
...
资源推荐
资源详情
资源评论
案例丨 Apache Hadoop 准实时数据处理的架构模式
评估好哪一种流架构模式最适合你的案例,是成功生产开发的先决条件。
Apache Hadoop 生态系统已成为企业实时地处理和挖掘大数据的首选。
Apache 的 Kafka, Flume, Spark, Storm, Samza 等技术在不断地推进新的
可能。人们很容易泛化大规模实时数据案例,但其实他们可以细分为几种架构模
式,Apache 系统里的不同组件适合于不同的案例。
这篇文章探讨四种主要的设计模式,案例来自于我们企业客户的数据中心的
实例,并解释如何在 Hadoop 上实现这些架构模式。
流处理模式
四种流模式(经常串联使用)为:
流采集:低延迟将数据输入到 HDFS,Apache HBase 和 Apache Solr。
基于外部环境的准实时事件处理: 对事件采取警报,标示,转化,过滤等
动作。这些动作的触发可能取决于复杂的标准,例如异常监测模型。通常的使用
案例,例如准实时的欺诈监测和推荐系统,需要达到 100 毫秒以内的延迟。
准实时事件分割处理:类似于准实时事件处理,但通过将数据分割获得一些
好处—例如将更多相关外部信息存入内存。这个模式也要求延迟在 100 毫秒以内。
为整合或机器学习使用的复杂拓扑结构:流处理的精髓:实时地通过复杂而
灵活的操作从数据中获取答案。这里,因为结果通常依赖于一段窗口内的计算,
需要更多的活跃的数据, 于是重点从获得超低延迟转移到了功能性和准确性。
接下来,我们将介绍如何用可检测的,可被证明的和可维护的方式来实现这
些设计模式。
流采集
传统上,Flume 是最为推荐的流采集系统。它的大的源和池囊括了所有关于
消费什么和写到哪里的基础(关于如何配置和管理 flume,参考 Using Flume,
由 O’Reilly 出版的 Cloudera 工程师/Flume 项目管理委员会成员 Hari
Shreedharan 编写)。
资源评论
xxpr_ybgg
- 粉丝: 6537
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功