zoukankan      html  css  js  c++  java
  • pycharm中配置pyspark

    1 下载官网spark-2.1.1-bin-hadoop2.7.tgz(版本自己选择),解压将文件放在了指定路径下,这个文件夹里面有python文件,python文件下还有两个压缩包py4j-some-version.zip和pyspark.zip,之后会用到)

    2 pycharm使用pyspark时from pyspark import SparkContext,代码依然划红线,运行依然显示没有该模块。

    3 随便打开一个project,pycharm右上角“run”三角形的左边有一个run configurition,打开它。

    4 设置configurition---Environment--- Environment variables ---点击“...”,出现框框,点击+,输入两个name,一个是SPARK_HOME,另外一个是PYTHONPATH,设置它们的values,SPARK_HOME的value是安装文件夹spark-2.1.1-bin-hadoop2.7的绝对路径,PYTHONPATH的value是该绝对路径/python,例如我的SPARK_HOME的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7,那么我的PYTHONPATH的value是/Applications/spark/spark-2.1.1-bin-hadoop2.7/python 。设置好了保存。(注意不管是路径的哪里,都不能有空格!!尤其是结尾!!今天下午就因为一个空格折磨我好久)

    5 关键的一步。在perferences中的project structure中点击右边的“add  content root”,添加py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下)

    6 完成,from pyspark import SparkContext,红线消失,运行正常。

  • 相关阅读:
    http://rpm.pbone.net/
    Linux基础知识之 系统启动流程
    欧几里得算法及其扩展
    组合数相关
    poj2689 Prime Distance(思维+筛素数)
    一本通1624樱花(数学+唯一分解定理)
    CF33C Wonderful Randomized Sum(贪心+思维)
    HNOI 2008越狱(组合数学(乘法原理)+快速幂)
    唯一分解定理
    UVa 11827 Maximum GCD(gcd+读入技巧)
  • 原文地址:https://www.cnblogs.com/cxw296052618/p/10450637.html
Copyright © 2011-2022 走看看