大数据中台架构栈 (2).pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
大数据中台架构栈 大数据中台架构栈是指一个完善的数据技术架构,涵盖了数据采集传输、数据存储、数据计算&查询和数据可视化及分析等四个环节。了解这些架构里的每个部分的位置、功能和含义,不仅能让我们更好了解数据产品的范围和边界,还能知道技术能帮我们实现什么,能怎么实现得更好。 数据采集传输 数据采集传输是指将数据采集后缓存在某个地方,供后续的计算流程进行消费使用。针对不同的数据来源有各自的采集方式,从 APP/服务器日志、到业务表、还有各种 API 接口及数据文件等等。日志数据有数据量多、数据结构多样、产生环境复杂等特点,属于「重点关照」的对象。 常见的日志采集框架有 Flume、Logstash、Filebeat、Fluentd 和 rsyslog 等。Flume 是一款由 Cloudera 开发的实时采集日志引擎,主打高并发、高速、分布式海量日志采集。它是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统。Flume 支持在日志系统中定制各类数据进行发送,用于采集数据;同时,它支持对数据进行简单处理,并写到各种数据接收方。 Logstash 是 Elastic.co 旗下的一个开源数据收集引擎,能够动态地统一不同的数据源的数据至目的地,搭配 ElasticSearch 进行分析,Kibana 进行页面展示,是著名的 ELK 技术栈中的「L」部分。Logstash 的特点是内部没有一个 persist queue,异常情况可能会丢失部分数据;由ruby编写,需要ruby环境,插件很多;配置简单,偏重数据前期处理,分析方便。 日志采集 Agent 的工作原理 Flume 由三个部分组成:Source、Channel 和 Sink,对应于采集、缓存和保存三个环节。其中,Source 组件用来采集各种类型的数据源,如 directory、http、kafka 等。Channel 组件用来缓存数据,有 memory channel、JDBC channel 和 kafka channel 三种。最后再通过 Sink 组件进行保存,分别支持 HDFS、HBase、Hive 和 Kafka 四种存储方式。 数据传输 Kafka Kafka 是由领英开发,并随后于 2011 年初开源的项目,目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础设施来处理流式数据非常有价值。 数据存储 数据库存储方面,有单机/分布式、关系型/非关系型、列式存储/行式存储三个维度的划分,各种维度交叉下都有对应产品来解决某个场景下的需求。在数据量较小的情况下,一般采取单机数据库,如应用非常广泛,技术成熟的 MySQL。数据量大到一定程度后,就必须采取分布式系统了。目前业界最知名的就是 Apache 基金会名下的 Hadoop 系统,它基本可以作为大数据时代存储计算的经典模型。HDFS 作为 Hadoop 里的分布式文件系统,为 HBase 和 Hive 们提供了高可靠性的底层存储支持,对应于 Google 的 GFS。
剩余10页未读,继续阅读
- 粉丝: 6753
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于SimPy和贝叶斯优化的流程仿真系统.zip
- (源码)基于Java Web的个人信息管理系统.zip
- (源码)基于C++和OTL4的PostgreSQL数据库连接系统.zip
- (源码)基于ESP32和AWS IoT Core的室内温湿度监测系统.zip
- (源码)基于Arduino的I2C协议交通灯模拟系统.zip
- coco.names 文件
- (源码)基于Spring Boot和Vue的房屋租赁管理系统.zip
- (源码)基于Android的饭店点菜系统.zip
- (源码)基于Android平台的权限管理系统.zip
- (源码)基于CC++和wxWidgets框架的LEGO模型火车控制系统.zip