kafka存储图片

发布时间: 2023-02-27 11:12:26

‘壹’ 深入理解kafka(五)日志存储

5.1文件目录布局
根目录下有以下5个checkpoint文件: cleaner-offset-checkpoint, log-start-offset-checkpoint, meta.properties, recovery-point-offset-checkpoint, replication-offset-checkpoint
分区目录下有以下目录: 0000xxx.index(偏移量为64位长整形，长度固定为20位), 0000xxx.log, 0000xxx.timeindex.
还有可能包含.deleted .cleaned .swap等临时文件, 以及可能的.snapshot .txnindex leader-epoch-checkpoint
5.2日志格式演变
5.2.1 v0版本
kafka0.10.0之前
RECORD_OVERHEAD包括offset(8B)和message size(4B)
RECORD包括:
crc32(4B):crc32校验值
magic(1B):消息版本号0
attributes(1B):消息属性。低3位表示压缩类型：0-NONE 1-GZIP 2-SNAPPY 3-LZ4(0.9.x引入)
key length(4B):表示消息的key的长度。-1代表null
key: 可选
value length(4B):实际消息体的长度。-1代表null
value: 消息体。可以为空，如墓碑消息
5.2.2 v1版本
kafka0.10.0-0.11.0
比v0多了timestamp(8B)字段，表示消息的时间戳
attributes的第4位也被利用起来，0表示timestamp的类型为CreateTime，1表示timestamp的类型为LogAppendTime
timestamp类型由broker端参数log.message.timestamp.type来配置，默认为CreateTime，即采用生产者创建的时间戳
5.2.3 消息压缩
保证端到端的压缩，服务端配置compression.type，默认为"procer",表示保留生产者使用的压缩方式，还可以配置为"gzip","snappy","lz4"
多条消息压缩至value字段，以提高压缩率
5.2.4 变长字段
变长整形(Varints):每一个字节都有一个位于最高位的msb位(most significant bit),除了最后一个字节为1，其余都为0，字节倒序排列
为了使编码更加高效，Varints使用ZigZag编码:sint32对应 (n<<1)^(n>>31) sint64对应 (n<<1)^(n>>63)
5.2.5 v2版本
Record Batch
first offset:
length:
partition leader epoch:
magic:固定为2
attributes:两个字节。低3位表示压缩格式，第4位表示时间戳类型，第5位表示事务(0-非事务1-事务)，第6位控制消息(0-非控制1控制)
first timestamp:
max timestamp:
procer id:
procer epoch:
first sequence:
records count:
v2版本的消息去掉了crc字段，另外增加了length(消息总长度)、timestamp delta(时间戳增量)、offset delta(位移增量)和headers信息，并且弃用了attributes
Record
length:
attributes:弃用，但仍占据1B
timestamp delta:
offset delta:
headers:
5.3日志索引
稀疏索引(sparse index):每当写入一定量(broker端参数log.index.interval.bytes指定，默认为4096B),偏移量索引文件和时间索引文件分别对应一个索引项
日志段切分策略：
1.大小超过broker端参数log.segment.bytes配置的值，默认为1073741824(1GB)
2.当前日志段消息的最大时间戳与当前系统的时间戳差值大于log.roll.ms或者log.roll.hours，ms优先级高，默认log.roll.hours=168(7天)
3.索引文件或者时间戳索引文件的大小大于log.index.size.max.bytes配置的值，默认为10485760(10MB)
4.偏移量差值(offset-baseOffset)>Integer.MAX_VALUE
5.3.1 偏移量索引
每个索引项占用8个字节，分为两个部分：1.relativeOffset相对偏移量(4B) 2.position物理地址(4B)
使用kafka-mp-log.sh脚本来解析.index文件(包括.timeindex、.snapshot、.txnindex等文件)，如下:
bin/kafka-mp-log.sh --files /tmp/kafka-logs/topicId-0/00……00.index
如果broker端参数log.index.size.max.bytes不是8的倍数，内部会自动转换为8的倍数
5.3.2 时间戳索引
每个索引项占用12个字节，分为两个部分：1.timestamp当前日志分段的最大时间戳(12B) 2.relativeOffset时间戳对应的相对偏移量(4B)
如果broker端参数log.index.size.max.bytes不是12的倍数，内部会自动转换为12的倍数
5.4日志清理
日志清理策略可以控制到主题级别
5.4.1 日志删除
broker端参数log.cleanup.policy设置为delete(默认为delete)
检测周期broker端参数log.retention.check.interval.ms=300000(默认5分钟)
1.基于时间
broker端参数log.retention.hours,log.retention.minutes,log.retention.ms,优先级ms>minutes>hours
删除时先增加.delete后缀，延迟删除根据file.delete.delay.ms(默认60000)配置
2.基于日志大小
日志总大小为broker端参数log.retention.bytes(默认为-1，表示无穷大)
日志段大小为broker端参数log.segment.bytes(默认为1073741824，1GB)
3.基于日志起始偏移量
DeleteRecordRequest请求
1.KafkaAdminClient的deleteRecord()
2.kafka-delete-record.sh脚本
5.4.2 日志压缩
broker端参数log.cleanup.policy设置为compact，且log.cleaner.enable设置为true(默认为true)
5.5磁盘存储
相关测试：一个由6块7200r/min的RAID-5阵列组成的磁盘簇的线性写入600MB/s，随机写入100KB/s，随机内存写入400MB/s，线性内存3.6GB/s
5.5.1 页缓存
 linux操作系统的vm.dirty_background_ratio参数用来指定脏页数量达到系统的百分比之后就触发pdflush/flush/kdmflush，一般小于10，不建议为0
vm.dirty_ratio表示脏页百分比之后刷盘，但是阻塞新IO请求
kafka同样提供同步刷盘及间断性强制刷盘(fsync)功能，可以通过log.flush.interval.messages、log.flush.interval.ms等参数来控制
kafka不建议使用swap分区，vm.swappiness参数上限为100，下限为0，建议设置为1
5.5.2 磁盘I/O流程
一般磁盘IO的场景有以下4种：
1.用户调用标准C库进行IO操作，数据流为：应用程序Buffer->C库标准IOBuffer->文件系统也缓存->通过具体文件系统到磁盘
2.用户调用文件IO，数据流为：应用程序Buffer->文件系统也缓存->通过具体文件系统到磁盘
3.用户打开文件时使用O_DIRECT，绕过页缓存直接读写磁盘
4.用户使用类似dd工具，并使用direct参数，绕过系统cache与文件系统直接读写磁盘
Linux系统中IO调度策略有4种：
1.NOOP：no operation
2.CFQ
3.DEADLINE
4.ANTICIPATORY
5.5.3 零拷贝
指数据直接从磁盘文件复制到网卡设备中，不需要经应用程序
对linux而言依赖于底层的sendfile()
对java而言，FileChannal.transferTo()的底层实现就是sendfile()

‘贰’ kafka的原理是什么

在Kafka中的每一条消息都有一个topic。一般来说在我们应用中产生不同类型的数据，都可以设置不同的主题。一个主题一般会有多个消息的订阅者，当生产者发布消息到某个主题时，订阅了这个主题的消费者都可以接收到生产者写入的新消息。

kafka为每个主题维护了分布式的分区(partition)日志文件，每个partition在kafka存储层面是append log。

任何发布到此partition的消息都会被追加到log文件的尾部，在分区中的每条消息都会按照时间顺序分配到一个单调递增的顺序编号，也就是我们的offset,offset是一个long型的数字，通过这个offset可以确定一条在该partition下的唯一消息。在partition下面是保证了有序性，但是在topic下面没有保证有序性。

(2)kafka存储图片扩展阅读

procer选择一个topic，生产消息，消息会通过分配策略append到某个partition末尾。

consumer选择一个topic，通过id指定从哪个位置开始消费消息。消费完成之后保留id，下次可以从这个位置开始继续消费，也可以从其他任意位置开始消费。

保证了消息不变性，为并发消费提供了线程安全的保证。每个 consumer都保留自己的offset，互相之间不干扰，不存在线程安全问题。

消息访问的并行高效性。每个topic中的消息被组织成多个partition，partition均匀分配到集群server中。生产、消费消息的时候，会被路由到指定partition，减少竞争，增加了程序的并行能力。

‘叁’ 怎么设置kafka topic数据存储时间

1、Kafka创建topic命令很简单，一条命令足矣：bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 3 --partitions 3 --topic test 。

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：1031

制作脚本网站发布：2025-10-20 08:17:34 浏览：1307

python中的init方法发布：2025-10-20 08:17:33 浏览：990

图案密码什么意思发布：2025-10-20 08:16:56 浏览：1166

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：1037

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1394

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：606

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：500

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：1169

python股票数据获取发布：2025-10-20 07:39:44 浏览：1168

kafka存储图片

(2)kafka存储图片扩展阅读

与kafka存储图片相关的资讯