项目介绍6.docx大数据项目+项目介绍+面试辅导_大数据面试介绍项目资源-CSDN文库

版权申诉

5星 · 超过95%的资源 166 浏览量 2023-08-08 15:07:46 上传评论收藏 1.08MB DOCX 举报

资源推荐

资源详情

资源评论

1.自我介绍

一．入行原因

我大学期间自学了半年的 Java，有了一定的 Java 基础，我平时习惯在图书馆看一些前

沿技术的杂志，偶然看到大数据这门技术，开始上网查找一些关于大数据的资料，发现大数

据很有前景，于是对大数据技术产生了浓厚的兴趣，我决定将大数据作为以后的工作方向，

毕业前半年，结合图书馆以及网上的一些教程，我自学了大数据的一些基础知识，了解了数

据采集平台的搭建，对 hadoop 框架以及 kafka,flume 等组件有了一定的认识，毕业后，我

顺利进入 xxx 公司，参与大数据平台的搭建。

二．项目经历

2017 年，我来到这个公司，是从搭建数据平台开始，大概花了半年左右，将平台搭建起来，

能够稳定的运行，后面公司决定搭建离线数仓平台，刚开始我对数仓项目没有太多经验，数

仓没有分层，直接从 ods 层拿数据分析计算，每算一个指标都要 etl join ,效率太低了，后来

研究了很久，我们借鉴了阿里的数仓分层，将数仓分为 ods，dwd，dws，ads 这四层，后来

在这个基础上又进行了优化升级，增加了 dwt 层，将每层的任务进一步细分，解决问题的

时候更容易一些，这个数仓的核心指标都是由我来分析的（留存率，转化率，gmv，复购率，

活跃率），包括框架的调优都是我来做的，这个数仓目前还在做，2019 年初，公司需要上实

时项目，公司让我去参与实时项目的调研与搭建。

总结三年前来到公司，搭建数据平台，半年后平台搭建完毕并稳定运行，半年后，由于我的

出色表现开始搭建数仓，从数据平台搭建完后我一直负责数仓项目，最近一年前，我开始负

责开发实时项目，数仓的一些优化和一些疑难问题还是由我带着去做，主攻实时项目，

为备选方案，File channel 虽然可靠性好，但是传输效率比较低，一般像银行这些对数据敏

感的企业会选择 File channel

二．使用拦截器，选择器，监控器

①我们在 flume 中使用了两种拦截器，使用 etl 拦截器，将不合规范的 json 数据进行清洗，

过滤掉这些数据后能提高传输效率，同时还使用了事件分类拦截器，配合多路复用选择器将

不同类型的日志发往不同的 kafka topic，自定义拦截器需要实现 Interceptor，重写四个方法，

分别是初始化方法，close 方法，单个 event 的处理方法，以及多个 event 的处理方法，同时

还需要实现一个静态内部类 Interceptor.Builder,然后重写 build 方法和 configure 方法，然后

对程序进行打包，上传到 flume 的 lib 包下，在 flume 的配置文件中，需要添加拦截器的全

类名+$+builder。

②这里介绍一下选择器，选择器有两种：Replicating Channel Selector 和 Multiplexing Channel

Selector，我们使用的是 Multiplexing Channel Selector，因为 Replicating Channel Selector 是

将数据发往所有的通道，而 Multiplexing Channel Selector 是将数据选择性的发往不同的通道，

这里我们需要把不同的日志类型写入到不同的 Kafka topic 中去，

③我们还用到了 Ganglia 监控器，主要用来监控 flume 的运行状况，如果监控到 flume 中的 put

和 take 事务尝试的次数远远大于成功次数，说明我们需要优化 flume，flume 默认内存是

2000M，可以调大到 4g 到 6g，像双十一或六一八搞活动时，flume 仍然是扛不住的，这个

时候，我们需要提前增加对应的日志服务器，将 flume 部署上，当活动过去后，再将添加的

日志服务器移除掉，直接在 aliyun 购买日志服务器即可，非常方便，这里注意，flume 要和

日志服务器部署在同一台节点上，这样可以减少网络 io。

三．Flume 挂的的情况（考虑数据丢失和重复问题）

我们还遇到 flume 挂了的情况，但是这种情况不用担心，因为我们使用的是 kafka channel，

挂了后数据依然保存在磁盘，而 tairdirsource 支持断点续传，不会丢失数据，最多会造成数

据的重复，由于是普通日志，这点重复我们是可以接受的，（如果需要处理，可以在下一级

处理（hive dwd sparkstreaming flink 布隆）、去重手段（groupby、开窗取窗口第一条、

redis）），而且 flume 运行比较稳定，挂的情况比较少。

剩余43页未读，继续阅读

内容反馈

版权申诉

韩朋宸

2023-11-01

资源不错，对我启发很大，获得了新的灵感，受益匪浅。
kef131

2023-09-20

非常有用的资源，可以直接使用，对我很有用，果断支持！

AI+Maynor

粉丝: 7w+
资源: 170

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip