SparkStreaming与Kafka整合 - 走看看

zoukankan html css js c++ java

SparkStreaming与Kafka整合

代码示例：

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.streaming.StreamingContext

import org.apache.spark.streaming.Seconds

import org.apache.spark.streaming.kafka.KafkaUtils

object Driver {

def main(args: Array[String]): Unit = {

//--启动线程数，至少是两个。一个线程用于监听数据源，其他线程用于消费或打印。至少是2个

val conf=new SparkConf().setMaster("local[5]").setAppName("kafkainput")

val sc=new SparkContext(conf)

val ssc=new StreamingContext(sc,Seconds(5))

ssc.checkpoint("d://check1801")

//--连接kafka,并消费数据

val zkHosts="192.168.150.137:2181,192.168.150.138:2181,192.168.150.139:2181"

val groupName="gp1"

//--Map的key是消费的主题名，value是消费的线程数。也可以消费多个主题，比如：Map("parkx"->1,"enbook"->2)

val topic=Map("parkx"->1)

//--获取kafka的数据源

//--SparkStreaming作为Kafka消费的数据源，即从kafka中消费的偏移量(offset)存到zookeeper上

val kafkaStream=KafkaUtils.createStream(ssc, zkHosts, groupName, topic).map{data=>data._2}

val wordcount=kafkaStream.flatMap { line =>line.split(" ") }.map { word=>(word,1) }

.updateStateByKey{(seq,op:Option[Int])=>Some(seq.sum+op.getOrElse(0))}

wordcount.print()

ssc.start()

//--保持SparkStreaming线程一直开启

ssc.awaitTermination()

}

}

查看全文

相关阅读:
JavaEE中Filter实现用户登录拦截
 【Tomcat】如何注册Tomcat到Window Service服务
 案例分析：项目组内踢皮球事件
 最大子序列求和问题
 《游戏脚本的设计与开发》-第一部分总结文字脚本的功能扩展和一个游戏测试
 ajax异步请求实例
 创建用于编译和运行Java程序的批处理文件
 Codeforces Round #189 (Div. 2)
新的研究方向
 怎样在android实现uc和墨迹天气那样的左右拖动效果

原文地址：https://www.cnblogs.com/shuzhiwei/p/11323142.html

Copyright © 2011-2022 走看看