kafka

简介

kafka是最初由LInkedin公司开发、是一个分布式、支持分区、多副本，基于zookeeper协调的分布式消息系统，它主要是应用在日志收集系统和消息系统中。

特点

高吞吐量、低延迟：kafka每秒可以处理几十万条消息、它的延迟最低只有几毫秒，
可扩展性：kafka集群支持热扩展
持久性、可靠性：消息被持久化到本地磁盘、并且支持数据备份防止数据丢失
容错性：允许集群中节点失败、允许n-1个节点失败
高并发：支持数千个客户端同时读写

应用场景

日志收集：通过kafka收集各种服务的log，然后以统一服务开放给消费者
消息系统：解耦生产者和消费者，缓存消息等
运营指标：用于记录运营监控数据、包括收集各种分布式应用的数据

消息队列通信模式

点对点模式

消费者通过主动拉取或者轮询的消息传送模式，这个模式的特点是发送到队列的消息被一个且只有一个消费者进行处理。生产者将消息放入消息队列后，由消费者主动的去拉取消息进行消费，好处是消费者的消费频率可以由自己控制，坏处是消费者需要额外的线程去监控消息，主动探知。

发布订阅模式

生产者将消息放入消息队列后，队列会将消息推送给订阅过该类消息的消费者，所以由于是消费者被动接收推送，所以无需感知消息队列是否有待消费的消息。发布订阅模式可以由多种不同的订阅者（消费者），当各个订阅者的性能不一样时，处理消息的能力也会不一样，因此会出现资源浪费或者部分订阅者无法处理的情况。

工作流程分析

发送数据

生产者先从kafka集群中获得分区副本的leader
生产者将消息发送给分区副本的leader
leader将消息写入本地文件，如果这时ack=1的话，生产者就会认为消息发送成功。否则如果为ack=-1时，producer只有收到分区内所有副本的成功写入的通知才认为推送消息成功了。
这步是由其他分区副本follwer主动从leaderpull拉取消息。
随后follwer将消息写入本地文件后，向leader发送ack。
如上ack=2时，leader收到所有副本的ack后，发送producer给ack。

ack应答机制

0代表producer往集群发送数据不需要等到集群的返回，不确保消息发送成功。安全性最低但是效率最高。
1代表producer往集群发送数据只要leader应答就可以发送下一条，只确保leader发送成功。吞吐量与可靠性的一个折中方案
-1代表producer往集群发送数据需要所有的follower都完成从leader的同步才会发送下一条，确保leader发送成功和所有的副本都完成备份。安全性最高，但是效率最低。

保存数据

当生产者将数据写进对应分区里时，集群就会对数据进行保存了，kafka将数据保存在磁盘里，kafka初始会单独开辟一块磁盘空间，顺序写入数据（磁盘顺序写入会比随机效率高）。

Partition结构

分区在服务器的表现形式就是一个个文件夹，每个分区下的文件夹会有多组segment文件，每组segment文件又包含.index文件、.log文件、timeindex文件。其中.index文件和.timeindex文件是用来作为索引文件的，用于检索消息，.log文件则是用来实际存放message的地方。

message结构

在.log文件中存放了message，message主要组成的三部分是offset、消息大小、消息体。

offset：一个占8字节的有序id号，它可以确定每条消息在partition内的位置
消息大小：消息大小占用4字节，用于描述消息的大小
消息体：消息体存放的是实际消息数据（被压缩过），占用大小根据具体消息。

存储策略

无论消息是否被消费者消费过，kafka都会保存所有的消息。在默认情况下，会保存7天内的消息或者大小在1073741824内。超过这两个条件kafka就会删除该信息。

kafka学习笔记

kafka

简介

特点

应用场景

相关概念

Producer

Topic

Partition

Replica

Broker

Consumer

相关设计思想