zoukankan      html  css  js  c++  java
  • spark sql 优化心得

    本篇文章主要记录最近在使用spark sql 时遇到的问题已经使用心得。

     

    1 spark 2.0.1 中,启动thriftserver 或者是spark-sql时,如果希望spark-sql run on hdfs,那样需要增加参数 "--conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse"

    例如启动thriftserver:

    bin/start-thriftserver.sh --master spark://HOSTNAME:7077 --conf spark.sql.warehouse.dir=hdfs://HOSTNAME:9000/user/hive/warehouse --driver-memory 2g --executor-memory 35g

    说明

        spark.sql.warehouse.dir 这个参数如果不指定,spark sql 会自动在SPARK_HOME 建立一个 spark-warehouse 目录,里面保存对应的数据

        driver-memory 参数为执行的app 所能使用的内存大小

        executor-memory 参数设置当前任务将占用spark 集群中每个worker的内存

        CORE 不指定的话,默认使用每个worker 所有的CPU 数目

     

    2 如果spark sql 是run on hdfs,则用户在beeline中向其他的表写入数据时,会发生hfds权限异常错误

      解决方式是对hdfs 的权限设置进行关闭,在hadoop 2.7.3 版本中,关闭hdfs权限检查的参数为

      hdfs-site.xml

         <property>
            <name>dfs.permissions.enabled</name>
            <value>false</value>
         </property>

    3 spark sql 使用parquet 压缩方式,直接在beeline 执行类似sql 命令

    CREATE TABLE parquetTable 
          (name string)
          USING org.apache.spark.sql.parquet
          OPTIONS (
             path "examples/src/main/resources/users.parquet"
          );

       或者

       CREATE TABLE parquetTable 
          (name string)
          USING org.apache.spark.sql.parquet;

    另外

    如果使用sbin/stop-all.sh 命令,集群中还有一些Worker或者是Master 进程无法退出,一般是环境混乱了导致,kill -15 PID 即可

    还有一种情况,如果用户在sbin/start-all.sh 后,发现spark 集群中莫名其妙多了几个Worker 或者 Master 进程,同理也是环境混乱了导致,用户只要 kill -15 PID 即可

    彻底解决这种情况,用户应该首先对spark 集群进行停机

    sbin/stop-all.sh

    然后对没法停止的spark 进程进行kill -15 命令杀掉

    最后用户需要手工删除集群中 /tmp/spark* 所有文件,保证环境干净。

  • 相关阅读:
    ERROR: do not initialise statics to false
    kernel defconfig
    python --- comment
    python --- for
    Xcode密钥没有备份或者证书过期,出现Valid Signing错误
    [iOS]XCODE5升级之路
    VirtualBOX 虚拟机安装 OS X 10.9 Mavericks 及 Xcode 5,本人X220亲测
    [下载] MultiBeast 6.2.1版,支持10.9 Mavericks。Mac上的驱动精灵,最简单安装驱动的方式。
    XCode 5资源文件不自动更新问题
    Microsoft Word 2010/2013 无法创建工作文件 请检查临时环境变量
  • 原文地址:https://www.cnblogs.com/chenfool/p/6095381.html
Copyright © 2011-2022 走看看