zoukankan      html  css  js  c++  java
  • PyCharm+Eclipse共用Anaconda的数据科学环境

    1.安装anaconda2

      安装好之后,本地python环境就采用anaconda自带的python2.7的环境。

    2.安装py4j

      在本地ctrl+r打开控制台后,直接使用pip安装py4j,因为anaconda默认是安装了pip的,当然也可以使用conda安装。

      安装命令:pip install py4j

      如果不安装py4j可能出现的问题?

         答:因为Spark的Python版本的API依赖于py4j,如果不安装运行程序会抛出如下错误。

         

    3.配置环境变量

      配置PyCharm的环境变量主要配置两个变量一个是SPARK_HOME,另外一个是PYTHONPATH。

    (1).先打开Run Configurations

    (创建一个项目,项目或python文件的左上角有该选项)
      

    (2).编辑Environment variables

        
    或者按下面的方式展开

    菜单:File-->Settings (图来源于互联网~这里我用的是python2)

        

    (3).在Environment variables下增加spark和python的环境

      增加SPARK_HOME目录与PYTHONPATH目录。

      - SPARK_HOME:Spark安装目录

      - PYTHONPATH:Spark安装目录下的Python目录

        

    4.复制pyspark的包

    编写Spark程序,复制pyspark的包,增加代码显示功能

    为了让我们在PyCharm编写Spark程序时有代码提示和补全功能,需要将Spark的pyspark导入到Python中。在Spark的程序中有Python的包,叫做pyspark

    pyspark包

    Python导入第三方的包也很容易,只需要把相应的模块导入到指定的文件夹就可以了。
    windows中将pyspark拷贝到Python的site-packages目录下(这里使用的是anaconda)

    5.测试代码

    import sys
    from operator import add
    
    from pyspark import SparkContext
    
    
    logFile = "D:\BigData\Workspace\PycharmProjects\MachineLearning1\word.txt"
    sc = SparkContext("local", "PythonWordCount")
    logData = sc.textFile(logFile).cache()

    numAs = logData.filter(lambda s: 'a' in s).count()
    numBs = logData.filter(lambda s: 'b' in s).count()

    print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
    
    
  • 相关阅读:
    男子利用POS机帮人非法套现1576万余元被起诉
    套现花样很多 弄不好成了诈骗
    刀尖上的无本生意 信用卡套现投资盛行
    新三板是什么—新三板科普知识讲堂
    Android注入事件的三种方法比较
    当今最流行的Node.js应用开发框架简介
    安卓WindowManager注入事件如何跳出进程间安全限制
    伟大创意检验10要
    初创互联网公司简明创业指南
    根据Unix哲学来编写你的HTML5 Websocket服务器来实现全双工通信
  • 原文地址:https://www.cnblogs.com/jackchen-Net/p/6932754.html
Copyright © 2011-2022 走看看