zoukankan      html  css  js  c++  java
  • SparkStreaming测试

    sparkStream本地测试

    1.  nc -lk 9999 启动服务端, 然后启动 network_wordcount.py,终端输出每秒的streaming数据流

    2. 在服务端输入数据, 客户端就能显示结果

    完整代码如下

    from __future__ import print_function
    
    import sys 
    
    from pyspark import SparkContext
    from pyspark.streaming import StreamingContext
    
    if __name__ == "__main__":
        if len(sys.argv) != 3:
            print("Usage: network_wordcount.py <hostname> <port>", file=sys.stderr)
            sys.exit(-1)
        sc = SparkContext(appName="PythonStreamingNetworkWordCount")
        ssc = StreamingContext(sc, 1)
    
        lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))
        counts = lines.flatMap(lambda line: line.split(" "))
                      .map(lambda word: (word, 1))
                      .reduceByKey(lambda a, b: a+b)
        print("log test")
    
        counts.pprint()
        ssc.start()
        ssc.awaitTermination()
    
  • 相关阅读:
    13 内建属性 _getattribute_ 内建函数
    12 垃圾回收GC
    11 元类
    12 动态语言 __slots__
    11 作用域
    10 带参数的装饰器 通用装饰器 类装饰器
    9 装饰器
    8 闭包
    6 生成器 yield 协程
    cmd常用命令
  • 原文地址:https://www.cnblogs.com/energy1010/p/11179909.html
Copyright © 2011-2022 走看看