kafka是一种消息中间件,消息中间件解决的是分布式系统之间消息传递的问题
spark streaming场景:
实时金融反欺诈
传感器实时监测
电商实时推荐
实时监控公司系统
核心概念:
StreamingContext
DStream
Input Dstreams
Receivers
Transformation:map、filter、flatMap、reparation、union、count、reduce...
Output Operations:print、saveAsTextFiles、saveAsObjectFiles、saveAsHadoopFiles、foreachRDD...
进阶:
1、带状态的算子:updateStateBy
使用该算子时,需要配置检查点目录,在生产环境中将 checkpoint 设置到 hdfs 上的某个文件夹
2、将结果更新到数据库,工作中如rdis、hbase
注意并发
3、窗口