zoukankan      html  css  js  c++  java
  • PyCharm+Eclipse共用Anaconda的数据科学环境

    1.安装anaconda2

      安装好之后,本地python环境就采用anaconda自带的python2.7的环境。

    2.安装py4j

      在本地ctrl+r打开控制台后,直接使用pip安装py4j,因为anaconda默认是安装了pip的,当然也可以使用conda安装。

      安装命令:pip install py4j

      如果不安装py4j可能出现的问题?

         答:因为Spark的Python版本的API依赖于py4j,如果不安装运行程序会抛出如下错误。

         

    3.配置环境变量

      配置PyCharm的环境变量主要配置两个变量一个是SPARK_HOME,另外一个是PYTHONPATH。

    (1).先打开Run Configurations

    (创建一个项目,项目或python文件的左上角有该选项)
      

    (2).编辑Environment variables

        
    或者按下面的方式展开

    菜单:File-->Settings (图来源于互联网~这里我用的是python2)

        

    (3).在Environment variables下增加spark和python的环境

      增加SPARK_HOME目录与PYTHONPATH目录。

      - SPARK_HOME:Spark安装目录

      - PYTHONPATH:Spark安装目录下的Python目录

        

    4.复制pyspark的包

    编写Spark程序,复制pyspark的包,增加代码显示功能

    为了让我们在PyCharm编写Spark程序时有代码提示和补全功能,需要将Spark的pyspark导入到Python中。在Spark的程序中有Python的包,叫做pyspark

    pyspark包

    Python导入第三方的包也很容易,只需要把相应的模块导入到指定的文件夹就可以了。
    windows中将pyspark拷贝到Python的site-packages目录下(这里使用的是anaconda)

    5.测试代码

    import sys
    from operator import add
    
    from pyspark import SparkContext
    
    
    logFile = "D:\BigData\Workspace\PycharmProjects\MachineLearning1\word.txt"
    sc = SparkContext("local", "PythonWordCount")
    logData = sc.textFile(logFile).cache()

    numAs = logData.filter(lambda s: 'a' in s).count()
    numBs = logData.filter(lambda s: 'b' in s).count()

    print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
    
    
  • 相关阅读:
    为什么一刷新页面session没了
    Dedecmsv5.7整合ueditor 图片上传添加水印
    DedecmsV5.7本地上传缩略图无法自动添加水印的解决方法
    mysql find_in_set()函数的使用
    利用phpqrcode二维码生成类库和imagecopymerge函数制拼接图片的经验
    dedecms自定义表单时间时间戳值类型的转换方法
    jquery 根据自定义属性选择
    jquery快速获得url 的get传值
    自定义Bean初始化和销毁方法
    Spring常用注解
  • 原文地址:https://www.cnblogs.com/jackchen-Net/p/6932754.html
Copyright © 2011-2022 走看看