- 数据积压指的是消费者因为一些外部的IO、一些比较耗时的操作(full GC--stop the world),就会造成消息在partition中一直存在得不到消费,就会产生数据积压。
- 所以需要监控系统(kafka的监控系统Eagle),如果出现这种情况,需要尽快处理,虽然后续的spark streaming/flink可以实现背压机制,但是数据累积太多一定对实时系统的实时性有影响的。
- 日常比较常见的积压场景是:数据写入到MySQL失败,导致消费者分区的offset一直没被提交,导致积压;还有比较常见的就是网络延迟导致消费失败,由于网络抖动,产生消费超时失败。