没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
Flume部署和使用 官方文档: http://flume.apache.org/ example: WebServer –> Agent[Source–>Channel–>Sink] –> HDFS 一.简介 Flume是一个分布式,可靠的的框架,它能从许多不同的数据源高效地收集、聚合和移动大量日志数据到一个集中的目的进行存储。Flume OG主要是0.9及以前的版本,Flume NG主要是1.X的版本。类似的框架还有Logstash。对应广义的Hadoop而言,Flume是比较常用的。Logstash更轻量级,主要配合ELK使用 我们使用Flume,真要需要开发的代码不多,从使用层面来讲就
资源推荐
资源详情
资源评论
Flume部署和使用部署和使用
Flume部署和使用部署和使用
官方文档: http://flume.apache.org/
example: WebServer –> Agent[Source–>Channel–>Sink] –> HDFS
一一.简介简介
Flume是一个分布式,可靠的的框架,它能从许多不同的数据源高效地收集、聚合和移动大量日志数据到一个集中的目的进行
存储。Flume OG主要是0.9及以前的版本,Flume NG主要是1.X的版本。类似的框架还有Logstash。对应广义的Hadoop而
言,Flume是比较常用的。Logstash更轻量级,主要配合ELK使用
我们使用Flume,真要需要开发的代码不多,从使用层面来讲就是写配置文件,掌握常见类型Source、Channel、Sink的配
置,配置我们的Agent。这部分主要对应的是Flume User Guide:
http://flume.apache.org/releases/content/1.9.0/FlumeDeveloperGuide.html。
需要自己写代码的部分,主要是如何基于Flume进行自定义开发,自定义Source、Sink、和Channel。
常用的Source类型如下(从哪里收集)
avro (序列化)
exec (命令行)
spooling (目录)
taildir (重要)
kafka
常见的Channel类型(数据存在哪里)
memory
kafka
file
常见Sink类型(数据输出到哪里)
hdfs (Hadoop)
logger (控制台)
avro
kafka
二二.安装安装
下载
[ruoze@rzdata001 ~]$ cd software/
[ruoze@rzdata001 software]$ wget http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.16.2.tar.gz
解压,创建软连接
[ruoze@rzdata001 software]$ tar -zxvf flume-ng-1.6.0-cdh5.16.2.tar.gz -C /home/app/
[ruoze@rzdata001 software]$ cd ~/app/
[ruoze@rzdata001 app]$ ln -s /home/ruoze/app/apache-flume-1.6.0-cdh5.16.2-bin /home/ruoze/app/flume
配置配置文件
[ruoze@rzdata001 ~]$ cd /home/ruoze/app/flume/conf
[ruoze@rzdata001 conf]$ cp flume-env.sh.template flume-env.sh
[ruoze@rzdata001 conf]$ cp flume-conf.properties.template flume-conf.properties
[ruoze@rzdata001 conf]$ vim flume-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_121
添加环境变量
[ruoze@rzdata001 ~]$ vim .bash_profile
# Flume env
export FLUME_HOME=/home/ruoze/app/flume
export PATH=$FLUME_HOME/bin:$PATH
flume版本
[ruoze@rzdata001 bin]$
[ruoze@rzdata001 bin]$ flume-ng version
Flume 1.6.0-cdh5.16.2
Source code repository: https://git-wip-us.apache.org/repos/asf/flume.git
Revision: df92badde3691ee3eb6074a177f0e96682345381
Compiled by jenkins on Mon Jun 3 03:49:33 PDT 2019
From source with checksum 9336bfa3ff8cfb5e20cd9d700135a2c1
[ruoze@rzdata001 bin]$
三三.任务配置任务配置
Flume agent配置是一个配置在本地的配置文件,是一个遵循java配置文件格式的text文件。
在同一个配置文件中可以配置指定一个或多个agents,同时配置上每个source、sink和channel数据流串联的方式。
目标: 掌握根据官网文档进行配置的方法。
各个类型的source、channel和sink的配置说明中,粗体是必须设置的参数。
例例1: 1_netcat_memory_logger.conf
写配置文件:
# conf file name: 1_netcat_memory_logger.conf
# Source type : netcat source
# Channel type: memory channel
# Sink type : logger sink
# Name the components on this agent <== define agent
# a1 <== agent name
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source <== define Source
a1.sources.r1.type = netcat
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 44444
# Use a channel which buffers events in memory <== define Channel
a1.channels.c1.type = memory
# Describe the sink <== define Sink
a1.sinks.k1.type = logger
# Bind the source and sink to the channel <== connect source,channel and sink
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
启动agent:
$FLUME_HOME/bin/flume-ng agent \
--name a1 \
--conf $FLUME_HOME/conf \
--conf-file $FLUME_HOME/myconf/1_netcat_memory_logger.conf \
-Dflume.root.logger=INFO,console
jps查看新增的服务:
[ruoze@rzdata001 ~]$ jps
7040 SecondaryNameNode
31123 Jps
20724 NameNode
21144 ResourceManager
7897 RunJar
30939 Application <== 新增agent的信息
20860 DataNode
21260 NodeManager
19215 StandaloneSessionClusterEntrypoint
[ruoze@rzdata001 ~]$
查看服务启动的详细信息:
[ruoze@rzdata001 ~]$ ps -ef | grep 30939 | grep -v grep
ruoze 30939 31334 0 20:49 pts/0 00:00:01 /usr/java/jdk1.8.0_121/bin/java -Xmx20m -Dflume.root.logger=INFO,console -cp
/home/ruoze/app/flume/conf:/home/ruoze/app/flume/lib/*:/home/ruoze/app/hadoop/etc/hadoop:/home/ruoze/app/hadoop-2.6.0-
cdh5.16.2/share/hadoop/common/lib/*:/home/ruoze/app/hadoop-2.6.0-cdh5.16.2/share/hadoop/common/*:/home/ruoze/app/hadoop-2.6.0-
cdh5.16.2/share/hadoop/hdfs:/home/ruoze/app/hadoop-2.6.0-cdh5.16.2/share/hadoop/hdfs/lib/*:/home/ruoze/app/hadoop-2.6.0-
cdh5.16.2/share/hadoop/hdfs/*:/home/ruoze/app/hadoop-2.6.0-cdh5.16.2/share/hadoop/yarn/lib/*:/home/ruoze/app/hadoop-2.6.0-
cdh5.16.2/share/hadoop/yarn/*:/home/ruoze/app/hadoop-2.6.0-cdh5.16.2/share/hadoop/mapreduce/lib/*:/home/ruoze/app/hadoop-2.6.0-
cdh5.16.2/share/hadoop/mapreduce/*:/home/ruoze/app/hadoop/contrib/capacity-scheduler/*.jar:/home/ruoze/app/hive/lib/* -
Djava.library.path=:/home/ruoze/app/hadoop-2.6.0-cdh5.16.2/lib/native org.apache.flume.node.Application --name a1 --conf-file
/home/ruoze/app/flume/myconf/1_netcat_memory_logger.conf
[ruoze@rzdata001 ~]$
agent启动后,向44444端口发送数据。注意,一定要先启动agent。
剩余6页未读,继续阅读
weixin_38625143
- 粉丝: 6
- 资源: 916
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
- 1
- 2
前往页