zoukankan html css js c++ java

Spark套接字监听

#导入库
from __future__ import print_function

import sys

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: network_wordcount.py <hostname> <port>", file=sys.stderr)
        exit(-1)
    #配置创建StreamingContext对象
　　sc = SparkContext(appName="PythonStreamingNetworkWordCount")
    ssc = StreamingContext(sc, 1)
　　#套接字流
    lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))
　　#进行词频统计操作
    counts = lines.flatMap(lambda line: line.split(" "))
                  .map(lambda word: (word, 1))
                  .reduceByKey(lambda a, b: a+b)
    counts.pprint()

    ssc.start()
    ssc.awaitTermination()


sudo nc -lk 9999  指定端口
　　cd /usr/local/spark/mycode/streaming

python3 NetworkWordCount.py localhost 99 按照指定的端口执行

在nc第一个终端窗口窗口中随意输入一些单词，监听窗口就会自动获得单词数据流信息，在监听窗口每隔1秒就会打印出词频统计信息，大概会再屏幕上出现类似如下的结果：

-------------------------------------------
Time: 1479431100000 ms
-------------------------------------------
(hello,1)
(world,1)
-------------------------------------------
Time: 1479431120000 ms
-------------------------------------------
(hadoop,1)
-------------------------------------------
Time: 1479431140000 ms
-------------------------------------------
(spark,1)

查看全文

相关阅读:
将字符串数组转换成整形数组
 层的三级联动
 sql
工作中的感悟
 asp.net如何抓取其他网站的内容
 看不到的SQl
对数据库中时间为空的处理和数据转换成百分数
 不带查询条件的分页
 svn中出现红色感叹号
 视图的创建（根据已有的表）

原文地址：https://www.cnblogs.com/SoftwareBuilding/p/9449868.html