zoukankan      html  css  js  c++  java
  • 利用Pycharm本地调试spark-streaming(包含kafka和zookeeper等操作)

                              环境准备就不说了!

                              第一步:打开Pycharm,在File->Setting->Project Structure中点击Add Content Root 添加本地python调用java和spark的组件(因为python和spark通讯是通过调用Jvm的相关组件实现的) ,包含两个压缩包可以在spark的安装包里面找到

                              

     

                            

     

                             第二步:在项目文件内添加本地配置

                    os.environ['SPARK_HOME'] = r'C:UsersfengxuDesktopigdata-softwarespark-1.6.0-bin-hadoop2.6'
    os.environ['JAVA_HOME'] = r'C:softwarejdk1.8'
    sys.path.append(r"C:UsersfengxuDesktopigdata-softwarespark-1.6.0-bin-hadoop2.6python")



    第三步:也是最重要的一步需要在本地的spark安装包内找到spark-defaults.conf的配置文件在末尾添加一行
     spark.jars.packages   org.apache.spark:spark-streaming-kafka-0-8_2.10:2.0.1
    这是本地操作kafka和一些组件的必备jar包。配置完毕以后就可以在maven仓库下载相关jar包了
    (报了很多错误,查阅了很多英文文档才找到答案,国内没有找到相关问题答案)

    成功后就可以利用本地的python和本地相关组件(spark,kafka hdfs)调试和操作远程组件了!
    成功后会在本地环境生成(多线程模拟集群)写入的hdfs文件


    可以调试了,操作本地文件还是很有用的哈!

     

     

     

     

  • 相关阅读:
    linux shell 脚本30分钟教程
    ubuntu nginx+mysql+php 服务器环境自动配置脚本
    前端开发中常用工具函数总结
    经常逛的技术网站
    简单好用的在线思维导图工具
    在线短信接收
    一些图片站
    常用CSS媒体查询
    Dart Language samples
    IDEA 快捷键
  • 原文地址:https://www.cnblogs.com/feng-bigdata/p/7850365.html
Copyright © 2011-2022 走看看