大数据中台架构栈(2).pdf资源-CSDN文库

版权申诉

118 浏览量 2022-06-21 19:11:46 上传评论收藏 1.54MB PDF 举报

大数据中台架构栈大数据中台架构栈是指一个完善的数据技术架构，涵盖了数据采集传输、数据存储、数据计算&查询和数据可视化及分析等四个环节。了解这些架构里的每个部分的位置、功能和含义，不仅能让我们更好了解数据产品的范围和边界，还能知道技术能帮我们实现什么，能怎么实现得更好。数据采集传输数据采集传输是指将数据采集后缓存在某个地方，供后续的计算流程进行消费使用。针对不同的数据来源有各自的采集方式，从 APP/服务器日志、到业务表、还有各种 API 接口及数据文件等等。日志数据有数据量多、数据结构多样、产生环境复杂等特点，属于「重点关照」的对象。常见的日志采集框架有 Flume、Logstash、Filebeat、Fluentd 和 rsyslog 等。Flume 是一款由 Cloudera 开发的实时采集日志引擎，主打高并发、高速、分布式海量日志采集。它是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统。Flume 支持在日志系统中定制各类数据进行发送，用于采集数据；同时，它支持对数据进行简单处理，并写到各种数据接收方。 Logstash 是 Elastic.co 旗下的一个开源数据收集引擎，能够动态地统一不同的数据源的数据至目的地，搭配 ElasticSearch 进行分析，Kibana 进行页面展示，是著名的 ELK 技术栈中的「L」部分。Logstash 的特点是内部没有一个 persist queue，异常情况可能会丢失部分数据；由ruby编写，需要ruby环境，插件很多；配置简单，偏重数据前期处理，分析方便。日志采集 Agent 的工作原理 Flume 由三个部分组成：Source、Channel 和 Sink，对应于采集、缓存和保存三个环节。其中，Source 组件用来采集各种类型的数据源，如 directory、http、kafka 等。Channel 组件用来缓存数据，有 memory channel、JDBC channel 和 kafka channel 三种。最后再通过 Sink 组件进行保存，分别支持 HDFS、HBase、Hive 和 Kafka 四种存储方式。数据传输 Kafka Kafka 是由领英开发，并随后于 2011 年初开源的项目，目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”，这使它作为企业级基础设施来处理流式数据非常有价值。数据存储数据库存储方面，有单机/分布式、关系型/非关系型、列式存储/行式存储三个维度的划分，各种维度交叉下都有对应产品来解决某个场景下的需求。在数据量较小的情况下，一般采取单机数据库，如应用非常广泛，技术成熟的 MySQL。数据量大到一定程度后，就必须采取分布式系统了。目前业界最知名的就是 Apache 基金会名下的 Hadoop 系统，它基本可以作为大数据时代存储计算的经典模型。HDFS 作为 Hadoop 里的分布式文件系统，为 HBase 和 Hive 们提供了高可靠性的底层存储支持，对应于 Google 的 GFS。

资源推荐

资源详情

资源评论