没有合适的资源?快使用搜索试试~ 我知道了~
大数据中台架构栈 (2).pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 66 浏览量
2022-11-17
03:26:13
上传
评论
收藏 330KB PDF 举报
温馨提示
试读
6页
大数据中台架构栈 (2).pdf大数据中台架构栈 (2).pdf
资源推荐
资源详情
资源评论
一般来说,我们将数据整个链条区分为四个环节,从数据采集传输,到数据存储,再到数据计算&查询,到
后续的数据可视化及分析。框架图如下:
1. 数据采集传输
这个一般对应于公司的日志平台,任务是将数据采集后缓存在某个地方,供后续的计算流程进行消费使用。
针对不同的数据来源有各自的采集方式,从 APP/服务器 日志,到业务表,还有各种 API 接口及数据文件
等等。其中因为日志数据有数据量多,数据结构多样,产生环境复杂等特点,属于「重点关照」的对象。
目前市面针对日志采集的有 Flume,Logstash,Filebeat,Fluentd ,rsyslog 几种常见的框架,我们挑
应用较广泛的前两者介绍下:
Flume 和 Logstash?Flume 是一款由 Cloudera 开发的实时采集日志引擎,主打高并发,高速度,分布式
海量日志采集。它是一种提供高可用、高可靠、分布式海量日志采集、聚合和传输的系统。Flume 支持在
日志系统中定制各类数据进行发送,用于采集数据;同时,它支持对数据进行简单处理,并写到各种数据
接收方。目前有两个版本,OG 和 NG,特点主要是:
1.
2.
3.
侧重数据传输,有内部机制确保不会丢数据,用于重要日志场景
由 java 开发,没有丰富的插件,主要靠二次开发
配置繁琐,对外暴露监控端口有数据
Logstash 是 旗下的一个开源数据收集引擎,可动态的统一不同的数据源的数据至目的地,搭配
ElasticSearch 进行分析,Kibana 进行页面展示,是着名的 ELK 技术栈中的「L」部分。特点主要是:
1.
2.
3.
内部没有一个 persist queue,异常情况可能会丢失部分数据
由 ruby 编写,需要 ruby 环境,插件很多
配置简单,偏重数据前期处理,分析方便
从两者的设计思想来看,Flume 最初并不是为了采集日志而设计,而是定位在把数据传入 HDFS 中,这和
Logstash 有根本的区别。所以它理所应当侧重于数据的传输和安全,且需要更多的二次开发和配置工作。
而 Logstash 明显侧重先对日志数据进行预处理,为后续的解析做铺垫。它搭配 ELK 技术栈使用起来比较
简单,更像是为你准备好的便当,开盒即食。
日志采集如何工作
资源评论
春哥111
- 粉丝: 1w+
- 资源: 5万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功