zoukankan      html  css  js  c++  java
  • win10下spark+Python开发环境配置

    Step0:安装好Java ,jdk

    Step1:下载好:

    Step2: 将解压后的hadoop和spark设置好环境变量:

    在系统path变量里面+:

    Step3:

      使用pip安装 py4j : pip install py4j

      如果没装pip那就先装一下

    例程:wordcount.py

      运行worldcount例程发现,SPARK_HOME keyerror 然后 使用os设置了临时的环境变量。 麻蛋~ 发现重启一下编译器pycharm就好了

    from pyspark import SparkContext
    import os
    os.environ["SPARK_HOME"] = "H:Sparkspark-2.0.1-bin-hadoop2.7"
    sc = SparkContext('local')
    doc = sc.parallelize([['a', 'b', 'c'], ['b', 'd', 'd']])
    words = doc.flatMap(lambda d: d).distinct().collect()
    word_dict = {w: i for w, i in zip(words, range(len(words)))}
    word_dict_b = sc.broadcast(word_dict)
    
    
    def word_count_per_doc(d):
        dict_tmp = {}
        wd = word_dict_b.value
        for w in d:
            dict_tmp[wd[w]] = dict_tmp.get(wd[w], 0) + 1
        return dict_tmp
    
    print(doc.map(word_count_per_doc).collect())
    print("successful!")
  • 相关阅读:
    Chrome开发者工具详解(1)
    Chrome开发者工具详解(2)
    Ubuntu ADSL拨号上网
    Bash中单引号和双引号的区别
    建立菜单
    波浪号和Hyphen扩展
    标准IO和重定向
    Bash变量扩展修改符
    mysql主键约束和唯一性约束
    Here文档
  • 原文地址:https://www.cnblogs.com/luntai/p/6272635.html
Copyright © 2011-2022 走看看