zoukankan      html  css  js  c++  java
  • 离线电商数仓(十四)之用户行为数据采集(十四)第二层通道调试和如何造数据

    一、第二层采集通道的调试分析
        kafkaSource------>FileChannel------>HDFSSink
    1.数据
          ①保证topic_start和topic_event主题中有数据
          ②验证kafkaSource------>FileChannel是否有问题
              查看消费者组是否有lag!
              或运行test2.conf,使用loggersink看是否在控制台有数据的输出

              验证时,需要注意,每次消费了数据后,当前消费者组都会提交offset!
              下次只会从之前的offset继续消费,因此,可以尝试重置offset
          ③验证FileChannel------>HDFSSink是否有问题
            遇到问题可以尝试讲日志级别设置 WARN,方便调试!

    2.如何造其他日期的数据
          数据的日期取决于kafkaSource所运行机器的时间!

          ①先修改dt,让dt脚本也可以同步104的时间
          如果要造 2019-1-1,2019-1-20,2019-2-11,2019-2-22的数据
          此时
          ②从以上时间中选取最小的时间2019-1-1,执行dt 2019-1-1,讲所有的集群时间同步为
                    2019-1-1,启动集群(hdfs,kafka)
          ③造日志
                        lg ------>/tmp/logs/app-2019-1-1.log
          ④启动f1,f2




          2019-2-22 启动了kafka集群,此时集群会有一个时间戳2019-2-22
          此时修改时间为2019-1-22,如果没有重启kafka集群,此时,生产者在f1运行,
          f1的时间为2019-1-22,而kafka集群的时间依然是2019-2-22,此时生成数据,就会生成超时!

  • 相关阅读:
    BZOJ4802 欧拉函数 数论
    BZOJ3561 DZY Loves Math VI 数论 快速幂 莫比乌斯反演
    BZOJ3560 DZY Loves Math V 数论 快速幂
    BZOJ2142 礼物 扩展lucas 快速幂 数论
    BZOJ1951 [Sdoi2010]古代猪文 中国剩余定理 快速幂 数论
    BZOJ1500 [NOI2005]维修数列 splay
    HDU1814 Peaceful Commission 2-sat
    BZOJ2209 [Jsoi2011]括号序列 splay
    BZOJ1503 [NOI2004]郁闷的出纳员 splay
    BZOJ1208 [HNOI2004]宠物收养所 splay
  • 原文地址:https://www.cnblogs.com/qiu-hua/p/13514317.html
Copyright © 2011-2022 走看看