事件时间:将处理速度和结果内容彻底解耦。基于事件时间的操作是可预测的,其结果具有确定性。使用事件时间的挑战之一是如何处理延迟事件。
处理时间:处理事件的时间,适用于更重视处理速度而非准确度的应用。
水位线:时间戳小于或等于T的事件都已到达。收到watermark,就相当于接到信号:某个特定时间区间的时间戳都已到齐,可以触发窗口计算或对接收的数据进行排序了。
结果保障:流处理引擎内部状态的一致性,即关注故障恢复后应用代码能够看到的状态值。
精确一次:故障恢复后引擎需要知道某个事件对应的更新是否已经反映到状态上。事务性更新是实现该目标的方法,但可能会带来极大的性能开销。Flink使用轻量级检查点机制实现精确一致结果保障。
问题:
1、戴资力 Flink概念介绍 PPT P46 W(11)这个地方,多接收的12和15怎么处理了?是属于W(11)这个Window,还是属于W(17)这个Window? 按照一定会正确处理的原则,应属于W(17)窗口。具体如何处理?
2、流处理系统很关键的一点是能提供某些机制处理那些可能晚于水位线的迟到事件。Flink提供哪些机制处理晚于水位线的迟到数据?
3、想了解spark和flink差异,要回到极客时间讲spark的那节课。