zoukankan      html  css  js  c++  java
  • 【2020/2/13】寒假自学——学习进度报告16

      电脑修好了,但之前落下的几天博客确实没啥补的劲头,今天先写一份报告吧。


      

    实验内容和要求

    安装 Flume

     

    安装成功。

    使用 Avro 数据源测试 Flume

    配置文件

    启动flume agent a1

    创建指定的日志文件

    客户端传输

    传输完成

     使用 netcat 数据源测试 Flume

    创建example.conf

    启动flume

    启动Telnet

     

    Hellowworld

    使用 Flume 作为 Spark Streaming 数据源

    配置文件

    拷贝依赖包

    修改spark-env.sh添加环境变量

    编写python程序

    import sys
    
    
    
    from pyspark import SparkContext
    
    from pyspark.streaming import StreamingContext
    
    from pyspark.streaming.flume import FlumeUtils
    
    import pyspark
    
    
    
    if __name__ == "__main__":
    
        if len(sys.argv) != 3:
    
            print("Usage: flume_wordcount.py <hostname> <port>", file=sys.stderr)
    
            exit(-1)
    
    
    
        sc = SparkContext(appName="FlumeEventCount")
    
        ssc = StreamingContext(sc, 2)
    
    
    
        hostname = sys.argv[1]
    
        port = int(sys.argv[2])
    
        stream = FlumeUtils.createStream(ssc, hostname, port, pyspark.StorageLevel.MEMORY_AND_DISK_SER_2)
    
        stream.count().map(lambda cnt: "Recieve " + str(cnt) + " Flume events!!!!").pprint()
    
    
    
        ssc.start()
    
        ssc.awaitTermination()

    启动spark

    运行python

     

    运行flume

    启动Telnet

    接收成功

  • 相关阅读:
    HTTP响应状态码整理
    Python通用爬虫,聚焦爬虫概念理解
    HTTP无状态协议理解
    会话与事务知识点总结
    并发一致性知识点整理
    使用隔离级别read committed隐式解决并发冲突
    多并发笔记整理
    git基本使用
    Docker其他
    Docker Bind Mount 与 Volume
  • 原文地址:https://www.cnblogs.com/limitCM/p/12305574.html
Copyright © 2011-2022 走看看