大数据中台架构栈 (2).pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
![preview](https://dl-preview.csdnimg.cn/85725553/0001-f6fb3148302c13818128f684d0ffc019_thumbnail.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
大数据中台架构栈 大数据中台架构栈是指一个完善的数据技术架构,涵盖了数据采集传输、数据存储、数据计算&查询和数据可视化及分析等四个环节。了解这些架构里的每个部分的位置、功能和含义,不仅能让我们更好了解数据产品的范围和边界,还能知道技术能帮我们实现什么,能怎么实现得更好。 数据采集传输 数据采集传输是指将数据采集后缓存在某个地方,供后续的计算流程进行消费使用。针对不同的数据来源有各自的采集方式,从 APP/服务器日志、到业务表、还有各种 API 接口及数据文件等等。日志数据有数据量多、数据结构多样、产生环境复杂等特点,属于「重点关照」的对象。 常见的日志采集框架有 Flume、Logstash、Filebeat、Fluentd 和 rsyslog 等。Flume 是一款由 Cloudera 开发的实时采集日志引擎,主打高并发、高速、分布式海量日志采集。它是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统。Flume 支持在日志系统中定制各类数据进行发送,用于采集数据;同时,它支持对数据进行简单处理,并写到各种数据接收方。 Logstash 是 Elastic.co 旗下的一个开源数据收集引擎,能够动态地统一不同的数据源的数据至目的地,搭配 ElasticSearch 进行分析,Kibana 进行页面展示,是著名的 ELK 技术栈中的「L」部分。Logstash 的特点是内部没有一个 persist queue,异常情况可能会丢失部分数据;由ruby编写,需要ruby环境,插件很多;配置简单,偏重数据前期处理,分析方便。 日志采集 Agent 的工作原理 Flume 由三个部分组成:Source、Channel 和 Sink,对应于采集、缓存和保存三个环节。其中,Source 组件用来采集各种类型的数据源,如 directory、http、kafka 等。Channel 组件用来缓存数据,有 memory channel、JDBC channel 和 kafka channel 三种。最后再通过 Sink 组件进行保存,分别支持 HDFS、HBase、Hive 和 Kafka 四种存储方式。 数据传输 Kafka Kafka 是由领英开发,并随后于 2011 年初开源的项目,目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础设施来处理流式数据非常有价值。 数据存储 数据库存储方面,有单机/分布式、关系型/非关系型、列式存储/行式存储三个维度的划分,各种维度交叉下都有对应产品来解决某个场景下的需求。在数据量较小的情况下,一般采取单机数据库,如应用非常广泛,技术成熟的 MySQL。数据量大到一定程度后,就必须采取分布式系统了。目前业界最知名的就是 Apache 基金会名下的 Hadoop 系统,它基本可以作为大数据时代存储计算的经典模型。HDFS 作为 Hadoop 里的分布式文件系统,为 HBase 和 Hive 们提供了高可靠性的底层存储支持,对应于 Google 的 GFS。
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![exe](https://img-home.csdnimg.cn/images/20210720083343.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://csdnimg.cn/release/download_crawler_static/85725553/bg1.jpg)
![](https://csdnimg.cn/release/download_crawler_static/85725553/bg2.jpg)
![](https://csdnimg.cn/release/download_crawler_static/85725553/bg3.jpg)
剩余10页未读,继续阅读
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/dfba069df9d743e89798b70d3e80af24_xxpr_ybgg.jpg!1)
- 粉丝: 6587
- 资源: 3万+
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)