Kafka高频面试题系列之五（30道）.docx资源-CSDN文库

需积分: 3 97 浏览量 2023-04-04 19:31:14 上传评论收藏 142KB DOCX 举报

【Kafka面试题详解】 1. **节点存活判断条件** Kafka通过两个条件来判断一个节点是否还活着： - 节点必须能够与ZooKeeper保持连接，Zookeeper通过心跳机制检测每个节点的连接状态。 - 如果节点是follower，它必须能够及时同步leader的写操作，以确保数据一致性。 2. **Kafka中的Offset** Offset是Kafka为每个数据记录设置的唯一标识，相当于分区内的全局顺序号。从0开始，每次新消息到来时递增。消费者通过offset来确定消息的消费位置，保证消息的顺序消费和幂等性。 3. **消费者手动提交偏移量** 若要禁用自动提交offset，需将`auto.commit.enable`配置设为`false`。然后在处理完一批消息后，使用`commitSync()`或异步提交`commitAsync()`来手动提交。例如： ```java ConsumerRecords<String, String> records = consumer.poll(); for (ConsumerRecord<String, String> record : records) { // 处理消息... try { consumer.commitSync(); } catch (Exception e) { // 处理异常... } } ``` 4. **消费者模型：拉模式** Kafka的消费者使用拉模式（pull-based）从broker获取消息。这种设计允许消费者以自己的速度消费消息，并可以批量拉取提高效率。相比于push模式，拉模式避免了因broker推送速率过快导致消费者处理不过来的风险。 5. **零拷贝（Zero Copy）在Kafka的应用** - 在Kafka中，零拷贝主要应用于两个场景： - 使用mmap技术在索引读取中，使用户态和内核态共享内存，减少数据复制。 - `FileChannel.transferTo()`方法在TransportLayer中用于数据传输，通过sendfile系统调用实现零拷贝，直接将数据从磁盘发送到网络，减少了CPU的拷贝操作。但是，如果使用SSL，由于加密过程，Kafka无法使用零拷贝。 6. **Kafka消费状态跟踪** - 通常，Kafka的消费状态跟踪是通过消费者组（Consumer Group）来实现的。每个消息被一个消费者组中的一个消费者消费，一旦消息被确认，Kafka才会将其标记为已消费。这种方法可以容忍消费者失败，因为其他组内的成员可以接管未完成的消费任务。然而，如果消费者处理消息时失败且未确认，消息可能丢失，这要求系统有适当的容错和重试机制。 7. **消费者组和偏移量管理** - 消费者组内的每个消费者都有一个唯一的id，它们共同维护一个消费进度，即每个分区的最新offset。当消费者加入或离开组时，Kafka会进行rebalance，重新分配分区给消费者，以确保消息的均衡消费。 8. **消息可靠性** - 为了保证消息不丢失，Kafka提供了多个级别的持久化和复制策略。生产者可以设置acks参数来控制多少个副本确认后才认为消息被成功写入，而replication factor决定了副本数量，确保在节点故障时仍能提供服务。 9. **Kafka的分区和并行度** - 分区是Kafka消息的逻辑单元，每个主题可以有多个分区，这提供了水平扩展的能力。每个分区只能被组内的一个消费者消费，因此分区数量决定了并发消费的能力。 10. **Kafka的高可用性** - 通过ZooKeeper协调，Kafka实现主从复制，当首领节点失败时，follower可以快速接管。配合副本策略和 ISR（In-Sync Replicas）集合，Kafka可以在节点故障时保持服务的连续性。这些知识点涵盖了Kafka的基本架构、消费者行为、消息传递和容错机制等方面，是理解Kafka核心特性和实际运用的重要基础。

资源推荐

资源详情

资源评论

1、 Kafka 判断一个节点是否还活着有那两个条件？

（1）节点必须可以维护和 ZooKeeper 的连接，Zookeeper 通过心跳机制检查每个节点的连

接

（2）如果节点是个 follower,他必须能及时的同步 leader 的写操作，延时不能太久

2、 Kafka 中的 Offset 是什么？

•Offset 是 kafka 中存储数据时给每个数据做的标记或者编号

•分区级别的编号，每个分区从 0 开始编号

•功能：消费者根据 offset 来进行消费，保证顺序消费以及消费数据的一次性语义

3、消费者如何不自动提交偏移量，由应用提交？

将 auto.commit.offset 设为 false，然后在处理一批消息后 commitSync() 或者异步提交

commitAsync()

即：

ConsumerRecords<> records = consumer.poll();

for (ConsumerRecord<> record : records){

。。。

tyr{

consumer.commitSync()

}

。。。

}

4、 consumer 是推还是拉？

Kafka 最初考虑的问题是，customer 应该从 brokes 拉取消息还是 brokers 将消息推送到

consumer，也就是 pull 还 push。在这方面，Kafka 遵循了一种大部分消息系统共同的传统

的设计：producer 将消息推送到 broker，consumer 从 broker 拉取消息。

一些消息系统比如 Scribe 和 Apache Flume 采用了 push 模式，将消息推送到下游的

consumer。这样做有好处也有坏处：由 broker 决定消息推送的速率，对于不同消费速率的

consumer 就不太好处理了。消息系统都致力于让 consumer 以最大的速率最快速的消费消

息，但不幸的是，push 模式下，当 broker 推送的速率远大于 consumer 消费的速率时，

consumer 恐怕就要崩溃了。最终 Kafka 还是选取了传统的 pull 模式。

Pull 模式的另外一个好处是 consumer 可以自主决定是否批量的从 broker 拉取数据。

Push 模式必须在不知道下游 consumer 消费能力和消费策略的情况下决定是立即推送每条

消息还是缓存之后批量推送。如果为了避免 consumer 崩溃而采用较低的推送速率，将可能

导致一次只推送较少的消息而造成浪费。Pull 模式下，consumer 就可以根据自己的消费能

力去决定这些策略。

Pull 有个缺点是，如果 broker 没有可供消费的消息，将导致 consumer 不断在循环中轮询，

直到新消息到 t 达。为了避免这点，Kafka 有个参数可以让 consumer 阻塞知道新消息到达

(当然也可以阻塞知道消息的数量达到某个特定的量这样就可以批量发送)。

5、 Kafka 的哪些场景中使用了零拷贝（Zero Copy）？

在 Kafka 中，体现 Zero Copy 使用场景的地方有两处：基于 mmap 的索引和日志文件读写所

用的 TransportLayer。

先说第一个。索引都是基于 MappedByteBuffer 的，也就是让用户态和内核态共享内核态的

数据缓冲区，此时，数据不需要复制到用户态空间。不过，mmap 虽然避免了不必要的拷贝，

但不一定就能保证很高的性能。在不同的操作系统下，mmap 的创建和销毁成本可能是不一

样的。很高的创建和销毁开销会抵消 Zero Copy 带来的性能优势。由于这种不确定性，在 Kafka

中，只有索引应用了 mmap，最核心的日志并未使用 mmap 机制。

再说第二个。TransportLayer 是 Kafka 传输层的接口。它的某个实现类使用了 FileChannel 的

transferTo 方法。该方法底层使用 sendfile 实现了 Zero Copy。对 Kafka 而言，如果 I/O 通道

使用普通的 PLAINTEXT，那么，Kafka 就可以利用 Zero Copy 特性，直接将页缓存中的数据发

送到网卡的 Buffer 中，避免中间的多次拷贝。相反，如果 I/O 通道启用了 SSL，那么，Kafka

便无法利用 Zero Copy 特性了。

6、讲讲 kafka 维护消费状态跟踪的方法

大部分消息系统在 broker 端的维护消息被消费的记录：一个消息被分发到 consumer 后

broker 就马上进行标记或者等待 customer 的通知后进行标记。这样也可以在消息在消费后

立马就删除以减少空间占用。

但是这样会不会有什么问题呢？如果一条消息发送出去之后就立即被标记为消费过的，旦

consumer 处理消息时失败了（比如程序崩溃）消息就丢失了。为了解决这个问题，很多消

息系统提供了另外一个个功能：当消息被发送出去之后仅仅被标记为已发送状态，当接到

consumer 已经消费成功的通知后才标记为已被消费的状态。这虽然解决了消息丢失的问题，

但产生了新问题，首先如果 consumer 处理消息成功了但是向 broker 发送响应时失败了，

这条消息将被消费两次。第二个问题时，broker 必须维护每条消息的状态，并且每次都要

先锁住消息然后更改状态然后释放锁。这样麻烦又来了，且不说要维护大量的状态数据，比

如如果消息发送出去但没有收到消费成功的通知，这条消息将一直处于被锁定的状态，Kafka

采用了不同的策略。Topic 被分成了若干分区，每个分区在同一时间只被一个 consumer 消

费。这意味着每个分区被消费的消息在日志中的位置仅仅是一个简单的整数：offset。这样

就很容易标记每个分区消费状态就很容易了，仅仅需要一个整数而已。这样消费状态的跟踪

就很简单了。

这带来了另外一个好处：consumer 可以把 offset 调成一个较老的值，去重新消费老的消息。

这对传统的消息系统来说看起来有些不可思议，但确实是非常有用的，谁规定了一条消息只

能被消费一次呢？

7、在 Kafka 中，ZooKeeper 的作用是什么？

目前，Kafka 使用 ZooKeeper 存放集群元数据、成员管理、Controller 选举，以及其他一些管

剩余9页未读，继续阅读

评论收藏

内容反馈

中本王

粉丝: 171
资源: 320

Kafka高频面试题系列之五（30道）.docx

Kafka高频面试题系列之一（30道）

kafka面试题.docx

kafka面试题参考

Kafka面试专题.docx

大数据技术之高频面试题.docx

Kafka高频面试题系列之三（30道）.docx

Kafka高频面试题系列之四（30道）.docx

Kafka高频面试题系列之六（30道）.docx

大数据技术之高频面试题8.0.8(1)(1).docx

经典面试题-Kafka

Kafka面试题.pdf

Kafka 面试题.pdf

Kafka面试题，面试知识

互联网高频Java后端面试题20道（适合1~3年）V1.0.89.docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.77.docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.83.docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.19.docx

互联网高频Java后端面试题20道（适合1~3年）V1.0.37.docx

Kafka面试专题.pdf

Kafka面试专题及答案.pdf

kafka常考面试题2024年.zip

2021面试指南（含各大简历模板）资料2.zip

程序员热门面试题及详细解析Kafka篇（5）

Kafka面试专题和答案.pdf

32道常见的Kafka面试题及答案.pdf

【BAT必备】kafka面试题

最新资源