Kafka快速实战与基本原理详解：从零到精通

需积分: 5 190 浏览量 2023-12-25 19:39:24 上传评论 1 收藏 1.05MB PDF 举报

本文档提供了对Kafka这一分布式消息系统的全面解析，从基本概念到实际应用，涵盖了其在日志收集、消息系统、用户活动跟踪等方面的使用场景。首先介绍了Kafka的核心概念，如Broker、Topic、Producer、Consumer等，随后详细阐述了Kafka的安装步骤、配置过程以及其与Zookeeper的交互。通过对Kafka生产者和消费者的代码示例分析，文档展示了消息的发送和接收过程，同时探讨了Kafka集群的搭建和运维，包括主题创建、分区管理、消息复制和容错处理等核心功能。此外，本文还探讨了Kafka的Java客户端访问方式，并且介绍了Spring Boot与Kafka的整合方法。整体上，文档提供了对Kafka架构深度的理解，同时通过实例代码展示了其在实际应用中的强大功能和灵活性。 Kafka是一种分布式消息系统，最初由LinkedIn开发，后成为Apache软件基金会的顶级开源项目。它设计用于处理实时的大量数据，适用于批处理系统、实时处理系统、流处理引擎等多种场景，如日志收集、消息传递、用户活动追踪和运营指标监控。 Kafka的核心组件包括Broker、Topic、Producer和Consumer。Broker是Kafka集群中的处理节点，多个Broker可以构成一个集群，提供高可用性和可扩展性。Topic是消息的分类，每条消息都需指定一个Topic。Producer是消息的生产者，负责将消息发送到Broker。Consumer是消息的消费者，从Broker读取并处理消息。ConsumerGroup是Consumer的逻辑分组，确保消息在组内的唯一消费，同一组内的Consumer互斥消费消息。 Kafka的另一个关键特性是Partition，即Topic的物理分区。每个Partition内部的消息保持顺序，使得数据处理具有一定的顺序性。Partition的存在也支持并行处理，提高了吞吐量。服务端与客户端之间的通信基于TCP协议，确保了消息传输的可靠性。在部署Kafka之前，需要安装Java JDK，因为Kafka是用Scala编写的，运行在JVM上。此外，Kafka依赖于Zookeeper作为协调服务，因此也需要先安装Zookeeper。安装完成后，可以按照以下步骤部署Kafka： 1. 下载Kafka的安装包，通常是tar.gz格式。 2. 解压缩安装包，进入解压后的目录。 3. 修改配置文件`config/server.properties`，设置broker.id、监听器地址、日志存储路径和Zookeeper连接地址。 4. 启动Kafka服务。 Kafka的使用还包括创建Topic、管理分区、配置消息复制策略以及处理容错。例如，通过`kafka-topics.sh`脚本可以创建和管理Topic，通过调整副本数量实现容错。此外，Kafka提供了多种语言的客户端库，包括Java，允许开发者方便地集成到他们的应用程序中。在Java中，可以使用Kafka的API创建Producer和Consumer，发送和接收消息。对于更高级的应用，例如在Spring Boot框架中使用Kafka，可以利用Spring的Kafka支持轻松集成。Spring Boot提供了自动配置和声明式API，简化了Kafka的使用，使得开发者能够专注于业务逻辑，而不是消息传递的细节。 Kafka以其高性能、高可扩展性和丰富的功能，成为了实时数据处理和消息传递领域的重要工具。通过理解其核心概念和实际操作，开发者能够有效地构建和维护大规模的数据流处理系统。

资源推荐

资源详情

资源评论

Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协

调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系

统、低延迟的实时系统、Storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，

Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。

Kafka的使用场景

日志收集：一个公司可以用Kafka收集各种服务的log，通过kafka以统一接口服务的方式开放给各种

consumer，例如hadoop、Hbase、Solr等。

消息系统：解耦和生产者和消费者、缓存消息等。

用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这

些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到

hadoop、数据仓库中做离线分析和挖掘。

运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反

馈，比如报警和报告。

3 cdapache‐zookeeper‐3.5.8‐bin

4 cpconf/zoo_sample.cfgconf/zoo.cfg

6 #启动zookeeper

7 bin/zkServer.shstart

8 bin/zkCli.sh

9 ls/#查看zk的根目录相关节点

第一步：下载安装包

下载2.4.1release版本，并解压：

1 wgethttps://mirror.bit.edu.cn/apache/kafka/2.4.1/kafka_2.11‐2.4.1.tgz#2.11是scala的版本，2.4.1是kafka的版本

2 tar‐xzfkafka_2.11‐2.4.1.tgz

3 cdkafka_2.11‐2.4.1

第二步：修改配置

修改配置文件config/server.properties:

1 #broker.id属性在kafka集群中必须要是唯一

2 broker.id=0

3 #kafka部署的机器ip和提供服务的端口号

4 listeners=PLAINTEXT://192.168.65.60:9092

5 #kafka的消息存储文件

6 log.dir=/usr/local/data/kafka‐logs

7 #kafka连接zookeeper的地址

8 zookeeper.connect=192.168.65.60:2181

第三步：启动服务

现在来启动kafka服务：

启动脚本语法：kafkaserverstart.sh[daemon]server.properties

可以看到，server.properties的配置路径是一个强制的参数，daemon表示以后台进程运行，否则ssh客户端退出后，

就会停止服务。(注意，在启动kafka时会使用linux主机名关联的ip地址，所以需要把主机名和linux的ip映射配置到本地

host里，用vim/etc/hosts)

1 #启动kafka，运行日志在logs目录的server.log文件里

2 bin/kafka‐server‐start.sh‐daemonconfig/server.properties#后台启动，不会打印日志到控制台

3 或者用

4 bin/kafka‐server‐start.shconfig/server.properties&

6 #我们进入zookeeper目录通过zookeeper客户端查看下zookeeper的目录树

7 bin/zkCli.sh

8 ls/#查看zk的根目录kafka相关节点

9 ls/brokers/ids#查看kafka节点

11 #停止kafka

12 bin/kafka‐server‐stop.sh

server.properties核心配置详解：

Property Default Description

broker.id 0

每个broker都可以用一个唯一的非负整数id进行标识；这个id可以作为broker的“名字”，

你可以选择任意你喜欢的数字作为id，只要id是唯一的即可。

log.dirs /tmp/kafka-logs

kafka存放数据的路径。这个路径并不是唯一的，可以是多个，路径之间只需要使用逗号分

隔即可；每当创建新partition时，都会选择在包含最少partitions的路径下进行。

listeners

PLAINTEXT://192.168.65.60:909

server接受客户端连接的端口，ip配置kafka本机ip即可

zookeeper.connect localhost:2181

zooKeeper连接字符串的格式为：hostname:port，此处hostname和port分别是

ZooKeeper集群中某个节点的host和port；zookeeper如果是集群，连接方式为

hostname1:port1,hostname2:port2,hostname3:port3

剩余13页未读，继续阅读

评论收藏

内容反馈

光芒软件工匠

粉丝: 796
资源: 64

Kafka快速实战与基本原理详解：从零到精通

kafka细心原理与实战

Kafka技术内幕：图文详解Kafka源码设计与实现+书签.pdf+源码

深入理解Kafka：核心设计与实践原理_朱忠华著_带目录.rar

图解 Kafka 之实战指南

kafka-schema-registry-client-6.2.2.jar

Kafka核心设计与实践原理.zip

kafka实战pdf

Kafka工作原理详解

Apache Kafka实战.pdf

Kafka技术内幕：图文详解Kafka源码设计与实现 PD

Kafka核心原理与实战（并不是原书，请看描述和评论下载）

Kafka 消息队列（高清版）深入理解Kafka：核心设计与实践原理.zip

Kafka核心原理与实战.docx

图解 Kafka 之实战指南.7z

kafka入门到精通.txt

Kafka技术内幕：图文详解Kafka源码设计与实现

Kafka the Definitive Guide 2nd Edition

Kafka全套学习笔记.zip

Kafka技术内幕：图文详解Kafka源码设计与实现 高清带书签

kafka实战.rar

Kafka技术内幕：图文详解Kafka源码设计与实现.郑奇煌(2017.11).pdf

2020最全Kafka教程合集（笔记+视频）.rar

Kafka 高级实战

kafka-schema-registry-client-3.2.0.jar

tomcat 8.5.100

基于spring boot的小区物业管理系统源码+论文+答辩ppt

RocketMQ 可视化工具 Dashboard下载

最新Java JDK 8安装版（Windows 64位）

自主研发的软著申请代码文档整理输出工具

最新资源

Kafka技术内幕：图文详解Kafka源码设计与实现高清带书签