1.两种方式
2.Basic Source
由StreamingContext可以提供的API
上面做的wordcount中的方式就算是第一种方式。
3.Advanced Source
使用数据接收器
线程负责转换接受数据,数据产生方主动将数据发送给SparkStreaming应用程序
Receiver接收到数据后,就存储下来
所以会有一个一直运行的job存在
数据传输方式:push方式。
Direct Approach,直接方式
通过第三方的jar文件读取数据,数据不会在集群中形成block块
就不需要启动一个专门的jpb执行Receiver的工作
数据的传输方式:poll方式