zoukankan      html  css  js  c++  java
  • Spark套接字监听

    #导入库
    from __future__ import print_function import sys from pyspark import SparkContext from pyspark.streaming import StreamingContext if __name__ == "__main__": if len(sys.argv) != 3: print("Usage: network_wordcount.py <hostname> <port>", file=sys.stderr) exit(-1) #配置创建StreamingContext对象
      sc = SparkContext(appName="PythonStreamingNetworkWordCount") ssc = StreamingContext(sc, 1)   #套接字流 lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))
      #进行词频统计操作 counts = lines.flatMap(lambda line: line.split(" ")) .map(lambda word: (word, 1)) .reduceByKey(lambda a, b: a+b) counts.pprint() ssc.start() ssc.awaitTermination()


    sudo nc -lk 9999  指定端口
      cd /usr/local/spark/mycode/streaming

    1. python3 NetworkWordCount.py localhost 99 按照指定的端口执行


    在nc第一个终端窗口窗口中随意输入一些单词,监听窗口就会自动获得单词数据流信息,在监听窗口每隔1秒就会打印出词频统计信息,大概会再屏幕上出现类似如下的结果:

    
    
    -------------------------------------------
    Time: 1479431100000 ms
    -------------------------------------------
    (hello,1)
    (world,1)
    -------------------------------------------
    Time: 1479431120000 ms
    -------------------------------------------
    (hadoop,1)
    -------------------------------------------
    Time: 1479431140000 ms
    -------------------------------------------
    (spark,1)
     
  • 相关阅读:
    将字符串数组转换成整形数组
    层的三级联动
    sql
    工作中的感悟
    asp.net如何抓取其他网站的内容
    看不到的SQl
    对数据库中时间为空的处理和数据转换成百分数
    不带查询条件的分页
    svn中出现红色感叹号
    视图的创建(根据已有的表)
  • 原文地址:https://www.cnblogs.com/SoftwareBuilding/p/9449868.html
Copyright © 2011-2022 走看看