笔记很早东西日常的一些复制粘贴怕忘了

对于kafak与sparkstreaming集成后 存在的问题 
一。基于receiver的方式在kafka1.0后好像是去取消了 都是高级api
默认是200毫秒接受的数据形成一个block块，设置5s为一个批次 那就是5000/200 为25个分区
 
 1.val kafkaParams = Map(
      "zookeeper.connect" -> "bigdata.server1:2181",   //连接zookeeper的地址，获取和提交offet
      "group.id" ->"KafkaReceive",             //消费组的名称
      "zookeeper.connection.timeout.ms" -> "10000",
      "auto.offset.reset"-> "smallest"    //当前sparksreaing对应的消费者组第一次消费的时候方式，当前是从头消费
    )
    val lines: DStream[String] = KafkaUtils.createStream[String,String,StringDecoder,StringDecoder](
        ssc,
        kafkaParams,
        topics,
        StorageLevel.MEMORY_AND_DISK_SER_2
    ).map(_._2)
    
2.  val topics = Map("test1" -> 4)

    val lines = KafkaUtils.createStream(
        ssc,
      "KafkaReceiverWC02",
      "bigdata.server1:2181",
        topics
    ).map(_._2)
    
二。基于direct模式
对应的是是topic有几个分区就有几个task
对应的也是两种集成
低级api可以定义从哪消费
    //由于Direct方式的kafka和Spark Streaming的集成方式中采用的api是低级封装的api（low lever api），消费的offset信息不需要zookeeper保存，而是直接去找broker节点
    val kafkaParams = Map(
      "metadata.broker.list"->"bigdata.server1:9092,bigdata.server1:9093,bigdata.server1:9094,bigdata.server1:9095"
    )

    //由于Direct方式的kafka和Spark Streaming的集成方式中采用的api是低级封装的api（low lever api），此时消费者的offet，由自己保管，不再是zookeeper，
    // 同时还可以自己指定从哪个offet开始消费 ，指定消费的topic以及对应每个分区，开始消费的offset
    val fromOffsets:Map[TopicAndPartition, Long] = Map(
      TopicAndPartition("bc",0) -> 0,
      TopicAndPartition("bc",1) -> 100,
      TopicAndPartition("bc",2) -> 200,
      TopicAndPartition("bc",3) -> 300
    )

    //MessageAndMetadata可以同时获取message的所属的topic，partiron，offset等元数据，也可以获取key和value，这里仅需要value
    val messageHandler: MessageAndMetadata[String, String] => String = (mmd:MessageAndMetadata[String, String])=>{
      //Messaged的Metadata
     // mmd.topic
     // mmd.partition
     // mmd.offset            在元数据区域获取到的偏移量与对应分区 进行存储
      //Messaged本身
      //mmd.key()
      mmd.message()
    }

    val lines: InputDStream[String] = KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder,String](
      ssc,
      kafkaParams,
      fromOffsets,
      messageHandler
    )
    
    HasOffsetRanges是一个接口 kafkardd是他的子类 也是rdd的子类 所以使用foreachRdd都是rdd    
    class KafkaRDD[
    K: ClassTag,
    V: ClassTag,
    U <: Decoder[_]: ClassTag,
    T <: Decoder[_]: ClassTag,
    R: ClassTag] private[spark] (
    sc: SparkContext,
    kafkaParams: Map[String, String],
    val offsetRanges: Array[OffsetRange],
    leaders: Map[TopicAndPartition, (String, Int)],
    messageHandler: MessageAndMetadata[K, V] => R
  ) extends RDD[R](sc, Nil) with Logging with HasOffsetRanges




    DirectKafkaInputDStream是inputstream的子类
    DirectKafkaInputDStream.foreachRdd后都是{都是kafkaRdd}
    
 kafkaRDD.asInstanceOf[HasOffsetRanges]

查看全文

相关阅读:
Atitit 架构师的技术框架体系图各种引擎列表脚本引擎 groovy beanshel php nodejs rhino等表达式引擎技术 Ognl/MVELl等通讯， rest 命令解
 Atitit 架构师的分类架构师都有哪些种类？ 1. 应用架构师应用架构师是行业中数量最多的架构师，主要负责公司产品的技术架构。产品架构师需要对业务有足够的理解，根据产品需求设计架构，在运营团
 Atitit 教育学体系教育学主要内容多语言，教学论，心理学，体育高等教育学职业技术教育学教育史
 Atitit 微信开发文档总结获取token和菜单管理功能 /bookmarksHtmlEverythingIndexPrj/src/com/attilax/wechatToto/wechatMen
Atitit 薪酬管理法工作手册员:薪酬管理办法 1.薪酬结构所有员工的薪酬均由岗位工资、级别工资、校龄工资、特别津贴、绩效工资和季度奖金六部分组成。其中岗位工资、级别工资、校龄工资、22
Atitit springcloud的艺术 attilax总结目录 1.1. 服务治理：Spring Cloud Eureka 39 注册中心 1 1.2. 第4章　客户端负载均衡：Spring
ATITIT 后发优势后发劣势 vs 先发优势的思考目录 1.1. “后发优势” 1 1.2. “后发劣势”论 1 1.3. 科技、经济界有两种矛盾的说法“后发优势”和“后发劣势” 1 2
Atitit java项目常用类库表目录 1. Ati总的常用库 1 1.1. 表达式，语言解析类库 1 1.2. 字符串模板解析库velocity freemark 1 1.3. rest库
 Atitit 命令行dsl传递参数的几种模式对比 cli url模式键值对NameValuePair urlutil String string = " host 101.13
Atitit java字符串模板渲染总结目录 1. 总结：指标 1 1.1. 支持中文变量提升可读性 1 1.2. 变量placeholder简单性，，velo可以直接￥前导简单。。Free的

原文地址：https://www.cnblogs.com/hejunhong/p/10493428.html

笔记 很早东西日常的一些复制粘贴 怕忘了

笔记很早东西日常的一些复制粘贴怕忘了