zoukankan      html  css  js  c++  java
  • Spark常见问题汇总,spark相关错误和解决方法,,,,,,,,,

     Spark常见问题汇总

    原文地址:https://my.oschina.net/tearsky/blog/629201

    摘要:

      1Operation category READ is not supported in state standby

      2、配置spark.deploy.recoveryMode选项为ZOOKEEPER

      3、多Master如何配置

      4No Space Left on the deviceShuffle临时文件过多)

      5java.lang.OutOfMemory, unable to create new native thread

      6Worker节点中的work目录占用许多磁盘空间

      7spark-shell提交Spark Application如何解决依赖库

      8、Spark在发布应用的时候,出现连接不上master问题

      9、开发spark应用程序(和Flume-NG结合时)发布应用时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800

      10spark-shell 找不到hadoop so问题解决

      11、ERROR XSDB6: Another instance of Derby may have already booted the database /home/bdata/data/metastore_db.

      12、java.lang.IllegalArgumentException: java.net.UnknownHostException: dfscluster

      13、Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

      14、Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in

      15、长时间等待无反应,并且看到服务器上面的web界面有内存和核心数,但是没有分配

      16、内存不足或数据倾斜导致Executor Lost(spark-submit提交)

      17、java.io.IOException : Could not locate executable nullinwinutils.exe in the Hadoop binaries.(spark sql on hive 任务引发HiveContext NullPointerException)

      18、The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------

      19Exception in thread "main" org.apache.hadoop.security.AccessControlException : Permission denied: user=Administrator, access=WRITE, inode="/data":bdata:supergroup:drwxr-xr-x

      20、运行Spark-SQL报错:org.apache.spark.sql.AnalysisException: unresolved operator 'Project‘

      21、org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 0/Failed to connect to hostname/192.168.xx.xxx:50268

      22、spark error already tried 45 time(s); maxRetries=45

      23.cloudera 更改spark高级配置

      24、spark Exception in thread "Thread-2" java.lang.OutOfMemoryError: PermGen space 

      25、pyspark TypeError: 'JavaPackage' object is not callable 

      26、spark als StackOverflowError

    注意:如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面查看是否有错误情况了

    1Operation category READ is not supported in state standby

         org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby

         此时请登录Hadoop的管理界面查看运行节点是否处于standby

    如登录地址是:

    http://192.168.50.221:50070/dfshealth.html#tab-overview

         如果是,则不可在处于StandBy机器运行spark计算,因为该台机器为备分机器

    2、配置spark.deploy.recoveryMode选项为ZOOKEEPER

         如果不设置spark.deploy.recoveryMode的话,那么集群的所有运行数据在Master重启是都会丢失,可参考BlackHolePersistenceEngine的实现。

    3、多Master如何配置

         因为涉及到多个Master,所以对于应用程序的提交就有了一点变化,因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单,只需要在SparkContext指向一个Master列表就可以了,如spark://host1:port1,host2:port2,host3:port3,应用程序会轮询列表。

    4No Space Left on the deviceShuffle临时文件过多)

             由于Spark在计算的时候会将中间结果存储到/tmp目录,而目前linux又都支持tmpfs,其实就是将/tmp目录挂载到内存当中。

    那么这里就存在一个问题,中间结果过多导致/tmp目录写满而出现如下错误

    No Space Left on the device

    解决办法

    第一种:修改配置文件spark-env.sh,把临时文件引入到一个自定义的目录中去即可

    export SPARK_LOCAL_DIRS=/home/utoken/datadir/spark/tmp

    第二种:偷懒方式,针对tmp目录不启用tmpfs,直接修改/etc/fstab

    cloudera manager 添加参数配置:筛选器=>高级=>搜索“spark_env”字样,添加参数export SPARK_LOCAL_DIRS=/home/utoken/datadir/spark/tmp到所有配置项

    5java.lang.OutOfMemory, unable to create new native thread

    Caused by: java.lang.OutOfMemoryError: unable to create new native thread

    at java.lang.Thread.start0(Native Method)

    at java.lang.Thread.start(Thread.java:640)

    上面这段错误提示的本质是Linux操作系统无法创建更多进程,导致出错,并不是系统的内存不足。因此要解决这个问题需要修改Linux允许创建更多的进程,就需要修改Linux最大进程数。

    [utoken@nn1 ~]$ulimit -a

    临时修改允许打开的最大进程数

    [utoken@nn1 ~]$ulimit -u 65535

    临时修改允许打开的文件句柄

    [utoken@nn1 ~]$ulimit -n 65535

    永久修改Linux最大进程数量

    [utoken@nn1 ~]$ vim /etc/security/limits.d/90-nproc.conf

    *          soft    nproc     60000

    root       soft    nproc     unlimited

    永久修改用户打开文件的最大句柄数,该值默认1024,一般都会不够,常见错误就是not open file

    [utoken@nn1 ~]$ vim /etc/security/limits.conf

    bdata  soft    nofile  65536

    bdata  hard    nofile  65536

    6Worker节点中的work目录占用许多磁盘空间

    目录地址:/home/utoken/software/spark-1.3.0-bin-hadoop2.4/work

    这些是Driver上传到worker的文件,需要定时做手工清理,否则会占用许多磁盘空间 

    7spark-shell提交Spark Application如何解决依赖库

    spark-shell的话,利用--driver-class-path选项来指定所依赖的jar文件,注意的是--driver-class-path后如果需要跟着多个jar文件的话,jar文件之间使用冒号(:)来分割。

    8、Spark在发布应用的时候,出现连接不上master问题,如下

    15/11/19 11:35:50 INFO AppClient$ClientEndpoint: Connecting to master spark://s1:7077...

    15/11/19 11:35:50 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@s1:7077] has failed, address is now gated for [5000] ms. Reason: [Disassociated]

    解决方式

    检查所有机器时间是否一致、hosts是否都配置了映射、客户端和服务器端的Scala版本是否一致、Scala版本是否和Spark兼容

    检查是否兼容问题请参考官方网站介绍:

    9、开发spark应用程序(和Flume-NG结合时)发布应用时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800

    15/11/27 10:33:44 ERROR ReceiverSupervisorImpl: Stopped receiver with error: org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
    15/11/27 10:33:44 ERROR Executor: Exception in task 0.0 in stage 2.0 (TID 70)
    org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800

            at org.jboss.netty.bootstrap.ServerBootstrap.bind(ServerBootstrap.java:272)

    Caused by: java.net.BindException: Cannot assign requested address

    由于spark通过Master发布的时候,会自动选取发送到某一台的worker节点上,所以这里绑定端口的时候,需要选择相应的worker服务器,但是由于我们无法事先了解到,spark发布到哪一台服务器的,所以这里启动报错,是因为在 192.168.10.156:18800的机器上面没有启动Driver程序,而是发布到了其他服务器去启动了,所以无法监听到该机器出现问题,所以我们需要设置spark分发包时,发布到所有worker节点机器,或者发布后,我们去寻找发布到了哪一台机器,重新修改绑定IP,重新发布,有一定几率发布成功。详情可见《印象笔记-战5渣系列——Spark Streaming启动问题 - 推酷》

    10spark-shell 找不到hadoop so问题解决

    [main] WARN  org.apache.hadoop.util.NativeCodeLoader  - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

    在Spark的conf目录下,修改spark-env.sh文件,加入LD_LIBRARY_PATH环境变量,值为HADOOP的native库路径即可.

    11、ERROR XSDB6: Another instance of Derby may have already booted the database /home/bdata/data/metastore_db.

    在使用Hive on Spark模式操作hive里面的数据时,报以上错误,原因是因为HIVE采用了derby这个内嵌数据库作为数据库,它不支持多用户同时访问,解决办法就是把derby数据库换成mysql数据库即可

    变更方式

    12、java.lang.IllegalArgumentException: java.net.UnknownHostException: dfscluster

    解决办法:

    找不到hdfs集群名字dfscluster,这个文件在HADOOP的etc/hadoop下面,有个文件hdfs-site.xml,复制到Spark的conf下,重启即可

    如:执行脚本,分发到所有的Spark集群机器中,

    [bdata@bdata4 hadoop]$ for i in {34,35,36,37,38};do scp hdfs-site.xml 192.168.10.$i:/u01/spark-1.5.1/conf/ ; done

    13、Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

    问题:在执行yarn集群或者客户端时,报以上错误,

    [bdata@bdata4 bin]$ ./spark-sql --master yarn-client

    Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

    解决办法

    根据提示,配置HADOOP_CONF_DIR or YARN_CONF_DIR的环境变量即可

    export HADOOP_HOME=/u01/hadoop-2.6.1

    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

    PATH=$PATH:$HOME/.local/bin:$HOME/bin:$SQOOP_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin

    14、Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:16,512 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 0 on 192.168.10.38: remote Rpc client disassociated

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:23,188 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 1 on 192.168.10.38: remote Rpc client disassociated

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:29,203 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 2 on 192.168.10.38: remote Rpc client disassociated

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:36,319 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 3 on 192.168.10.38: remote Rpc client disassociated

    2016-01-15 11:28:36,321 [org.apache.spark.scheduler.TaskSetManager]-[ERROR] Task 3 in stage 0.0 failed 4 times; aborting job

    Exception in thread "main" org.apache.spark.SparkException : Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in stage 0.0 (TID 14, 192.168.10.38): ExecutorLostFailure (executor 3 lost)

    Driver stacktrace:

          at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1283)

    解决方案

    这里遇到的问题主要是因为数据源数据量过大,而机器的内存无法满足需求,导致长时间执行超时断开的情况,数据无法有效进行交互计算,因此有必要增加内存

    15、长时间等待无反应,并且看到服务器上面的web界面有内存和核心数,但是没有分配,如下图

    [Stage 0:>                                                         (0 + 0) / 42]

    或者日志信息显示:

    16/01/15 14:18:56 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

    解决方案

    出现上面的问题主要原因是因为我们通过参数spark.executor.memory设置的内存过大,已经超过了实际机器拥有的内存,故无法执行,需要等待机器拥有足够的内存后,才能执行任务,可以减少任务执行内存,设置小一些即可

    16、内存不足或数据倾斜导致Executor Lost(spark-submit提交)

    TaskSetManager: Lost task 1.0 in stage 6.0 (TID 100, 192.168.10.37): java.lang.OutOfMemoryError: Java heap space

    16/01/15 14:29:51 INFO BlockManagerInfo: Added broadcast_8_piece0 in memory on 192.168.10.37:57139 (size: 42.0 KB, free: 24.2 MB)

    16/01/15 14:29:53 INFO BlockManagerInfo: Added broadcast_8_piece0 in memory on 192.168.10.38:53816 (size: 42.0 KB, free: 24.2 MB)
    16/01/15 14:29:55 INFO TaskSetManager: Starting task 3.0 in stage 6.0 (TID 102, 192.168.10.37, ANY, 2152 bytes)
    16/01/15 14:29:55 WARN TaskSetManager: Lost task 1.0 in stage 6.0 (TID 100, 192.168.10.37): java.lang.OutOfMemoryError: Java heap space
            at java.io.BufferedOutputStream.<init>(BufferedOutputStream.java:76)
            at java.io.BufferedOutputStream.<init>(BufferedOutputStream.java:59)
            at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$2.<init>(UnsafeRowSerializer.scala:55)
            at org.apache.spark.sql.execution.UnsafeRowSerializerInstance.serializeStream(UnsafeRowSerializer.scala:52)
            at org.apache.spark.storage.DiskBlockObjectWriter.open(DiskBlockObjectWriter.scala:92)
            at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.insertAll(BypassMergeSortShuffleWriter.java:110)
            at org.apache.spark.shuffle.sort.SortShuffleWriter.write(SortShuffleWriter.scala:73)
            at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
            at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
            at org.apache.spark.scheduler.Task.run(Task.scala:88)
            at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
            at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
            at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
            at java.lang.Thread.run(Thread.java:744)

    16/01/15 14:29:55 ERROR TaskSchedulerImpl: Lost executor 6 on 192.168.10.37: remote Rpc client disassociated
    16/01/15 14:29:55 INFO TaskSetManager: Re-queueing tasks for 6 from TaskSet 6.0
    16/01/15 14:29:55 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkExecutor@192.168.10.37:42250] has failed, address is now gated for [5000] ms. Reason: [Disassociated]

    16/01/15 14:29:55 WARN TaskSetManager: Lost task 3.0 in stage 6.0 (TID 102, 192.168.10.37): ExecutorLostFailure (executor 6 lost)

    16/01/15 14:29:55 INFO DAGScheduler: Executor lost: 6 (epoch 8)
    16/01/15 14:29:55 INFO BlockManagerMasterEndpoint: Trying to remove executor 6 from BlockManagerMaster.
    16/01/15 14:29:55 INFO BlockManagerMasterEndpoint: Removing block manager BlockManagerId(6, 192.168.10.37, 57139)
    16/01/15 14:29:55 INFO BlockManagerMaster: Removed 6 successfully in removeExecutor
    16/01/15 14:29:55 INFO AppClient$ClientEndpoint: Executor updated: app-20160115142128-0001/6 is now EXITED (Command exited with code 52)
    16/01/15 14:29:55 INFO SparkDeploySchedulerBackend: Executor app-20160115142128-0001/6 removed: Command exited with code 52

    16/01/15 14:29:55 INFO SparkDeploySchedulerBackend: Asked to remove non-existent executor 6

    .......

    org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 6.0 failed 4 times, most recent failure: Lost task 0.3 in stage 6.0 (TID 142, 192.168.10.36): ExecutorLostFailure (executor 4 lost)

    ......

    WARN TaskSetManager: Lost task 4.1 in stage 6.0 (TID 137, 192.168.10.38): java.lang.OutOfMemoryError: GC overhead limit exceeded

    解决办法:

         由于我们在执行Spark任务是,读取所需要的原数据,数据量太大,导致在Worker上面分配的任务执行数据时所需要的内存不够,直接导致内存溢出了,所以我们有必要增加Worker上面的内存来满足程序运行需要。

    在Spark Streaming或者其他spark任务中,会遇到在Spark中常见的问题,典型如Executor Lost 相关的问题(shuffle fetch 失败,Task失败重试等)。这就意味着发生了内存不足或者数据倾斜的问题。这个目前需要考虑如下几个点以获得解决方案:

    A、相同资源下,增加partition数可以减少内存问题。 原因如下:通过增加partition数,每个task要处理的数据少了,同一时间内,所有正在运行的task要处理的数量少了很多,所有Executor占用的内存也变小了。这可以缓解数据倾斜以及内存不足的压力。

    B、关注shuffle read 阶段的并行数。例如reduce,group 之类的函数,其实他们都有第二个参数,并行度(partition数),只是大家一般都不设置。不过出了问题再设置一下,也不错。

    C、给一个Executor 核数设置的太多,也就意味着同一时刻,在该Executor 的内存压力会更大,GC也会更频繁。我一般会控制在3个左右。然后通过提高Executor数量来保持资源的总量不变。

    16、 Spark Streaming 和kafka整合后读取消息报错:OffsetOutOfRangeException

    解决方案:如果和kafka消息中间件结合使用,请检查消息体是否大于默认设置1m,如果大于,则需要设置fetch.message.max.bytes=1m,这里需要把值设置大些

    17、java.io.IOException : Could not locate executable nullinwinutils.exe in the Hadoop binaries.(spark sql on hive 任务引发HiveContext NullPointerException)

    解决办法

    在开发hive和Spark整合的时候,如果是Windows系统,并且没有配置HADOOP_HOME的环境变量,那么可能找不到winutils.exe这个工具,由于使用hive时,对该命令有依赖,所以不要忽视该错误,否则将无法创建HiveContext,一直报Exception in thread "main" java.lang.RuntimeException:java.lang.NullPointerException

    因此,解决该办法有两个方式

    A、把任务打包成jar,上传到服务器上面,服务器是配置过HADOOP_HOME环境变量的,并且不需要依赖winutils,所以只需要通过spark-submit方式提交即可,如:

    [bdata@bdata4 app]$ spark-submit --class com.pride.hive.HiveOnSparkTest --master spark://bdata4:7077 spark-simple-1.0.jar

    B、解决winutils.exe命令不可用问题,配置Windows上面HADOOP_HOME的环境变量,或者在程序最开始的地方设置HADOOP_HOME的属性配置,这里需要注意,由于最新版本已经没有winutils这些exe命令了,我们需要在其他地方下载该命令放入HADOOP的bin目录下,当然也可以直接配置下载项目的环境变量,变量名一定要是HADOOP_HOME才行

    下载地址:https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip (记得翻墙哦)

    任何项目都生效,需要配置Windows的环境变量,如果只在程序中生效可在程序中配置即可,如

    //用于解决Windows下找不到winutils.exe命令

    System. setProperty("hadoop.home.dir", "E:\Software\hadoop-common-2.2.0-bin" );

    18、The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------

    解决办法

    1、程序中设置环境变量:System.setProperty("HADOOP_USER_NAME", "bdata")

    2、修改HDFS的目录权限

    Update the permission of your /tmp/hive HDFS directory using the following command

    #hadoop dfs -chmod 777 /tmp/hive

    此问题暂未解决,估计是17点解决winutils有问题,建议最好把任务程序发布到服务器上面解决

    19Exception in thread "main" org.apache.hadoop.security.AccessControlException : Permission denied: user=Administrator, access=WRITE, inode="/data":bdata:supergroup:drwxr-xr-x

    解决办法

    1、在系统的环境变量或java JVM变量里面添加HADOOP_USER_NAME,如程序中添加System.setProperty("HADOOP_USER_NAME", "bdata");,这里的值就是以后会运行HADOOP上的Linux的用户名,如果是eclipse,则修改完重启eclipse,不然可能不生效

    2、hdfs dfs -chmod 777 修改相应权限地址

    20、运行Spark-SQL报错:org.apache.spark.sql.AnalysisException: unresolved operator 'Project

    解决办法:

    在Spark-sql和hive结合时或者单独Spark-sql,运行某些sql语句时,偶尔出现上面错误,那么我们可以检查一下sql的问题,这里遇到的问题是嵌套语句太多,导致spark无法解析,所以需要修改sql或者改用其他方式处理;特别注意该语句可能在hive里面没有错误,spark才会出现的一种错误。

    21、org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 0/Failed to connect to hostname/192.168.xx.xxx:50268

    解决方法:

    1.优化shuffle操作(比如groupby,join)

    2.加大executor内存(spark.executor.memory)

    3.加大并行化参数(spark.default.parallelism)

    参考链接:

    http://blog.csdn.net/lsshlsw/article/details/49155087

    22、spark error already tried 45 time(s); maxRetries=45

    场景描述:spark提交任务,发现9个节点用8个运行都很快,只有一个节点一直失败,查看ui页面也没有发现数据倾斜
    问题定位:通过查看节点的work日志发现如下输出:

    问题解决:修改spark的最大重试参数:spark.port.maxRetries 值从45=>16

    23.cloudera 更改spark高级配置:

    业务场景:在使用cloudera  manager搭建spark集群的过程中总是有些参数在配置界面中搜索不到

    问题解决:集群=>配置=>高级,找到右侧的显示所有说明,找到你要修改的配置文件就可以了

    24.Exception in thread "Thread-2" java.lang.OutOfMemoryError: PermGen space

    问题原因:在JVM中,PermGen用于保存加载的类,yarn Client模式的持久代默认大小是32M;

    解决方案:spark-submit时增加如下参数:“--driver-java-options -XX:MaxPermSize=256m"

    25.pyspark TypeError: 'JavaPackage' object is not callable

    场景:

    原文地址:https://my.oschina.net/tearsky/blog/629201

    摘要:

      1Operation category READ is not supported in state standby

      2、配置spark.deploy.recoveryMode选项为ZOOKEEPER

      3、多Master如何配置

      4No Space Left on the deviceShuffle临时文件过多)

      5java.lang.OutOfMemory, unable to create new native thread

      6Worker节点中的work目录占用许多磁盘空间

      7spark-shell提交Spark Application如何解决依赖库

      8、Spark在发布应用的时候,出现连接不上master问题

      9、开发spark应用程序(和Flume-NG结合时)发布应用时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800

      10spark-shell 找不到hadoop so问题解决

      11、ERROR XSDB6: Another instance of Derby may have already booted the database /home/bdata/data/metastore_db.

      12、java.lang.IllegalArgumentException: java.net.UnknownHostException: dfscluster

      13、Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

      14、Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in

      15、长时间等待无反应,并且看到服务器上面的web界面有内存和核心数,但是没有分配

      16、内存不足或数据倾斜导致Executor Lost(spark-submit提交)

      17、java.io.IOException : Could not locate executable nullinwinutils.exe in the Hadoop binaries.(spark sql on hive 任务引发HiveContext NullPointerException)

      18、The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------

      19Exception in thread "main" org.apache.hadoop.security.AccessControlException : Permission denied: user=Administrator, access=WRITE, inode="/data":bdata:supergroup:drwxr-xr-x

      20、运行Spark-SQL报错:org.apache.spark.sql.AnalysisException: unresolved operator 'Project‘

      21、org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 0/Failed to connect to hostname/192.168.xx.xxx:50268

      22、spark error already tried 45 time(s); maxRetries=45

      23.cloudera 更改spark高级配置

      24、spark Exception in thread "Thread-2" java.lang.OutOfMemoryError: PermGen space 

    注意:如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面查看是否有错误情况了

    1Operation category READ is not supported in state standby

         org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby

         此时请登录Hadoop的管理界面查看运行节点是否处于standby

    如登录地址是:

    http://192.168.50.221:50070/dfshealth.html#tab-overview

         如果是,则不可在处于StandBy机器运行spark计算,因为该台机器为备分机器

    2、配置spark.deploy.recoveryMode选项为ZOOKEEPER

         如果不设置spark.deploy.recoveryMode的话,那么集群的所有运行数据在Master重启是都会丢失,可参考BlackHolePersistenceEngine的实现。

    3、多Master如何配置

         因为涉及到多个Master,所以对于应用程序的提交就有了一点变化,因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单,只需要在SparkContext指向一个Master列表就可以了,如spark://host1:port1,host2:port2,host3:port3,应用程序会轮询列表。

    4No Space Left on the deviceShuffle临时文件过多)

             由于Spark在计算的时候会将中间结果存储到/tmp目录,而目前linux又都支持tmpfs,其实就是将/tmp目录挂载到内存当中。

    那么这里就存在一个问题,中间结果过多导致/tmp目录写满而出现如下错误

    No Space Left on the device

    解决办法

    第一种:修改配置文件spark-env.sh,把临时文件引入到一个自定义的目录中去即可

    export SPARK_LOCAL_DIRS=/home/utoken/datadir/spark/tmp

    第二种:偷懒方式,针对tmp目录不启用tmpfs,直接修改/etc/fstab

    cloudera manager 添加参数配置:筛选器=>高级=>搜索“spark_env”字样,添加参数export SPARK_LOCAL_DIRS=/home/utoken/datadir/spark/tmp到所有配置项

    5java.lang.OutOfMemory, unable to create new native thread

    Caused by: java.lang.OutOfMemoryError: unable to create new native thread

    at java.lang.Thread.start0(Native Method)

    at java.lang.Thread.start(Thread.java:640)

    上面这段错误提示的本质是Linux操作系统无法创建更多进程,导致出错,并不是系统的内存不足。因此要解决这个问题需要修改Linux允许创建更多的进程,就需要修改Linux最大进程数。

    [utoken@nn1 ~]$ulimit -a

    临时修改允许打开的最大进程数

    [utoken@nn1 ~]$ulimit -u 65535

    临时修改允许打开的文件句柄

    [utoken@nn1 ~]$ulimit -n 65535

    永久修改Linux最大进程数量

    [utoken@nn1 ~]$ vim /etc/security/limits.d/90-nproc.conf

    *          soft    nproc     60000

    root       soft    nproc     unlimited

    永久修改用户打开文件的最大句柄数,该值默认1024,一般都会不够,常见错误就是not open file

    [utoken@nn1 ~]$ vim /etc/security/limits.conf

    bdata  soft    nofile  65536

    bdata  hard    nofile  65536

    6Worker节点中的work目录占用许多磁盘空间

    目录地址:/home/utoken/software/spark-1.3.0-bin-hadoop2.4/work

    这些是Driver上传到worker的文件,需要定时做手工清理,否则会占用许多磁盘空间 

    7spark-shell提交Spark Application如何解决依赖库

    spark-shell的话,利用--driver-class-path选项来指定所依赖的jar文件,注意的是--driver-class-path后如果需要跟着多个jar文件的话,jar文件之间使用冒号(:)来分割。

    8、Spark在发布应用的时候,出现连接不上master问题,如下

    15/11/19 11:35:50 INFO AppClient$ClientEndpoint: Connecting to master spark://s1:7077...

    15/11/19 11:35:50 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@s1:7077] has failed, address is now gated for [5000] ms. Reason: [Disassociated]

    解决方式

    检查所有机器时间是否一致、hosts是否都配置了映射、客户端和服务器端的Scala版本是否一致、Scala版本是否和Spark兼容

    检查是否兼容问题请参考官方网站介绍:

    9、开发spark应用程序(和Flume-NG结合时)发布应用时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800

    15/11/27 10:33:44 ERROR ReceiverSupervisorImpl: Stopped receiver with error: org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
    15/11/27 10:33:44 ERROR Executor: Exception in task 0.0 in stage 2.0 (TID 70)
    org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800

            at org.jboss.netty.bootstrap.ServerBootstrap.bind(ServerBootstrap.java:272)

    Caused by: java.net.BindException: Cannot assign requested address

    由于spark通过Master发布的时候,会自动选取发送到某一台的worker节点上,所以这里绑定端口的时候,需要选择相应的worker服务器,但是由于我们无法事先了解到,spark发布到哪一台服务器的,所以这里启动报错,是因为在 192.168.10.156:18800的机器上面没有启动Driver程序,而是发布到了其他服务器去启动了,所以无法监听到该机器出现问题,所以我们需要设置spark分发包时,发布到所有worker节点机器,或者发布后,我们去寻找发布到了哪一台机器,重新修改绑定IP,重新发布,有一定几率发布成功。详情可见《印象笔记-战5渣系列——Spark Streaming启动问题 - 推酷》

    10spark-shell 找不到hadoop so问题解决

    [main] WARN  org.apache.hadoop.util.NativeCodeLoader  - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

    在Spark的conf目录下,修改spark-env.sh文件,加入LD_LIBRARY_PATH环境变量,值为HADOOP的native库路径即可.

    11、ERROR XSDB6: Another instance of Derby may have already booted the database /home/bdata/data/metastore_db.

    在使用Hive on Spark模式操作hive里面的数据时,报以上错误,原因是因为HIVE采用了derby这个内嵌数据库作为数据库,它不支持多用户同时访问,解决办法就是把derby数据库换成mysql数据库即可

    变更方式

    12、java.lang.IllegalArgumentException: java.net.UnknownHostException: dfscluster

    解决办法:

    找不到hdfs集群名字dfscluster,这个文件在HADOOP的etc/hadoop下面,有个文件hdfs-site.xml,复制到Spark的conf下,重启即可

    如:执行脚本,分发到所有的Spark集群机器中,

    [bdata@bdata4 hadoop]$ for i in {34,35,36,37,38};do scp hdfs-site.xml 192.168.10.$i:/u01/spark-1.5.1/conf/ ; done

    13、Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

    问题:在执行yarn集群或者客户端时,报以上错误,

    [bdata@bdata4 bin]$ ./spark-sql --master yarn-client

    Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

    解决办法

    根据提示,配置HADOOP_CONF_DIR or YARN_CONF_DIR的环境变量即可

    export HADOOP_HOME=/u01/hadoop-2.6.1

    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

    PATH=$PATH:$HOME/.local/bin:$HOME/bin:$SQOOP_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin

    14、Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:16,512 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 0 on 192.168.10.38: remote Rpc client disassociated

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:23,188 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 1 on 192.168.10.38: remote Rpc client disassociated

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:29,203 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 2 on 192.168.10.38: remote Rpc client disassociated

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:36,319 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 3 on 192.168.10.38: remote Rpc client disassociated

    2016-01-15 11:28:36,321 [org.apache.spark.scheduler.TaskSetManager]-[ERROR] Task 3 in stage 0.0 failed 4 times; aborting job

    Exception in thread "main" org.apache.spark.SparkException : Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in stage 0.0 (TID 14, 192.168.10.38): ExecutorLostFailure (executor 3 lost)

    Driver stacktrace:

          at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1283)

    解决方案

    这里遇到的问题主要是因为数据源数据量过大,而机器的内存无法满足需求,导致长时间执行超时断开的情况,数据无法有效进行交互计算,因此有必要增加内存

    15、长时间等待无反应,并且看到服务器上面的web界面有内存和核心数,但是没有分配,如下图

    [Stage 0:>                                                         (0 + 0) / 42]

    或者日志信息显示:

    16/01/15 14:18:56 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

    解决方案

    出现上面的问题主要原因是因为我们通过参数spark.executor.memory设置的内存过大,已经超过了实际机器拥有的内存,故无法执行,需要等待机器拥有足够的内存后,才能执行任务,可以减少任务执行内存,设置小一些即可

    16、内存不足或数据倾斜导致Executor Lost(spark-submit提交)

    TaskSetManager: Lost task 1.0 in stage 6.0 (TID 100, 192.168.10.37): java.lang.OutOfMemoryError: Java heap space

    16/01/15 14:29:51 INFO BlockManagerInfo: Added broadcast_8_piece0 in memory on 192.168.10.37:57139 (size: 42.0 KB, free: 24.2 MB)

    16/01/15 14:29:53 INFO BlockManagerInfo: Added broadcast_8_piece0 in memory on 192.168.10.38:53816 (size: 42.0 KB, free: 24.2 MB)
    16/01/15 14:29:55 INFO TaskSetManager: Starting task 3.0 in stage 6.0 (TID 102, 192.168.10.37, ANY, 2152 bytes)
    16/01/15 14:29:55 WARN TaskSetManager: Lost task 1.0 in stage 6.0 (TID 100, 192.168.10.37): java.lang.OutOfMemoryError: Java heap space
            at java.io.BufferedOutputStream.<init>(BufferedOutputStream.java:76)
            at java.io.BufferedOutputStream.<init>(BufferedOutputStream.java:59)
            at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$2.<init>(UnsafeRowSerializer.scala:55)
            at org.apache.spark.sql.execution.UnsafeRowSerializerInstance.serializeStream(UnsafeRowSerializer.scala:52)
            at org.apache.spark.storage.DiskBlockObjectWriter.open(DiskBlockObjectWriter.scala:92)
            at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.insertAll(BypassMergeSortShuffleWriter.java:110)
            at org.apache.spark.shuffle.sort.SortShuffleWriter.write(SortShuffleWriter.scala:73)
            at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
            at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
            at org.apache.spark.scheduler.Task.run(Task.scala:88)
            at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
            at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
            at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
            at java.lang.Thread.run(Thread.java:744)

    16/01/15 14:29:55 ERROR TaskSchedulerImpl: Lost executor 6 on 192.168.10.37: remote Rpc client disassociated
    16/01/15 14:29:55 INFO TaskSetManager: Re-queueing tasks for 6 from TaskSet 6.0
    16/01/15 14:29:55 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkExecutor@192.168.10.37:42250] has failed, address is now gated for [5000] ms. Reason: [Disassociated]

    16/01/15 14:29:55 WARN TaskSetManager: Lost task 3.0 in stage 6.0 (TID 102, 192.168.10.37): ExecutorLostFailure (executor 6 lost)

    16/01/15 14:29:55 INFO DAGScheduler: Executor lost: 6 (epoch 8)
    16/01/15 14:29:55 INFO BlockManagerMasterEndpoint: Trying to remove executor 6 from BlockManagerMaster.
    16/01/15 14:29:55 INFO BlockManagerMasterEndpoint: Removing block manager BlockManagerId(6, 192.168.10.37, 57139)
    16/01/15 14:29:55 INFO BlockManagerMaster: Removed 6 successfully in removeExecutor
    16/01/15 14:29:55 INFO AppClient$ClientEndpoint: Executor updated: app-20160115142128-0001/6 is now EXITED (Command exited with code 52)
    16/01/15 14:29:55 INFO SparkDeploySchedulerBackend: Executor app-20160115142128-0001/6 removed: Command exited with code 52

    16/01/15 14:29:55 INFO SparkDeploySchedulerBackend: Asked to remove non-existent executor 6

    .......

    org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 6.0 failed 4 times, most recent failure: Lost task 0.3 in stage 6.0 (TID 142, 192.168.10.36): ExecutorLostFailure (executor 4 lost)

    ......

    WARN TaskSetManager: Lost task 4.1 in stage 6.0 (TID 137, 192.168.10.38): java.lang.OutOfMemoryError: GC overhead limit exceeded

    解决办法:

         由于我们在执行Spark任务是,读取所需要的原数据,数据量太大,导致在Worker上面分配的任务执行数据时所需要的内存不够,直接导致内存溢出了,所以我们有必要增加Worker上面的内存来满足程序运行需要。

    在Spark Streaming或者其他spark任务中,会遇到在Spark中常见的问题,典型如Executor Lost 相关的问题(shuffle fetch 失败,Task失败重试等)。这就意味着发生了内存不足或者数据倾斜的问题。这个目前需要考虑如下几个点以获得解决方案:

    A、相同资源下,增加partition数可以减少内存问题。 原因如下:通过增加partition数,每个task要处理的数据少了,同一时间内,所有正在运行的task要处理的数量少了很多,所有Executor占用的内存也变小了。这可以缓解数据倾斜以及内存不足的压力。

    B、关注shuffle read 阶段的并行数。例如reduce,group 之类的函数,其实他们都有第二个参数,并行度(partition数),只是大家一般都不设置。不过出了问题再设置一下,也不错。

    C、给一个Executor 核数设置的太多,也就意味着同一时刻,在该Executor 的内存压力会更大,GC也会更频繁。我一般会控制在3个左右。然后通过提高Executor数量来保持资源的总量不变。

    16、 Spark Streaming 和kafka整合后读取消息报错:OffsetOutOfRangeException

    解决方案:如果和kafka消息中间件结合使用,请检查消息体是否大于默认设置1m,如果大于,则需要设置fetch.message.max.bytes=1m,这里需要把值设置大些

    17、java.io.IOException : Could not locate executable nullinwinutils.exe in the Hadoop binaries.(spark sql on hive 任务引发HiveContext NullPointerException)

    解决办法

    在开发hive和Spark整合的时候,如果是Windows系统,并且没有配置HADOOP_HOME的环境变量,那么可能找不到winutils.exe这个工具,由于使用hive时,对该命令有依赖,所以不要忽视该错误,否则将无法创建HiveContext,一直报Exception in thread "main" java.lang.RuntimeException:java.lang.NullPointerException

    因此,解决该办法有两个方式

    A、把任务打包成jar,上传到服务器上面,服务器是配置过HADOOP_HOME环境变量的,并且不需要依赖winutils,所以只需要通过spark-submit方式提交即可,如:

    [bdata@bdata4 app]$ spark-submit --class com.pride.hive.HiveOnSparkTest --master spark://bdata4:7077 spark-simple-1.0.jar

    B、解决winutils.exe命令不可用问题,配置Windows上面HADOOP_HOME的环境变量,或者在程序最开始的地方设置HADOOP_HOME的属性配置,这里需要注意,由于最新版本已经没有winutils这些exe命令了,我们需要在其他地方下载该命令放入HADOOP的bin目录下,当然也可以直接配置下载项目的环境变量,变量名一定要是HADOOP_HOME才行

    下载地址:https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip (记得翻墙哦)

    任何项目都生效,需要配置Windows的环境变量,如果只在程序中生效可在程序中配置即可,如

    //用于解决Windows下找不到winutils.exe命令

    System. setProperty("hadoop.home.dir", "E:\Software\hadoop-common-2.2.0-bin" );

    18、The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------

    解决办法

    1、程序中设置环境变量:System.setProperty("HADOOP_USER_NAME", "bdata")

    2、修改HDFS的目录权限

    Update the permission of your /tmp/hive HDFS directory using the following command

    #hadoop dfs -chmod 777 /tmp/hive

    此问题暂未解决,估计是17点解决winutils有问题,建议最好把任务程序发布到服务器上面解决

    19Exception in thread "main" org.apache.hadoop.security.AccessControlException : Permission denied: user=Administrator, access=WRITE, inode="/data":bdata:supergroup:drwxr-xr-x

    解决办法

    1、在系统的环境变量或java JVM变量里面添加HADOOP_USER_NAME,如程序中添加System.setProperty("HADOOP_USER_NAME", "bdata");,这里的值就是以后会运行HADOOP上的Linux的用户名,如果是eclipse,则修改完重启eclipse,不然可能不生效

    2、hdfs dfs -chmod 777 修改相应权限地址

    20、运行Spark-SQL报错:org.apache.spark.sql.AnalysisException: unresolved operator 'Project

    解决办法:

    在Spark-sql和hive结合时或者单独Spark-sql,运行某些sql语句时,偶尔出现上面错误,那么我们可以检查一下sql的问题,这里遇到的问题是嵌套语句太多,导致spark无法解析,所以需要修改sql或者改用其他方式处理;特别注意该语句可能在hive里面没有错误,spark才会出现的一种错误。

    21、org.apache.spark.shuffle.MetadataFetchFailedException:Missing an output location for shuffle 0/Failed to connect to hostname/192.168.xx.xxx:50268

    解决方法:

    1.优化shuffle操作(比如groupby,join)

    2.加大executor内存(spark.executor.memory)

    3.加大并行化参数(spark.default.parallelism)

    参考链接:

    http://blog.csdn.net/lsshlsw/article/details/49155087

    22、spark error already tried 45 time(s); maxRetries=45

    场景描述:spark提交任务,发现9个节点用8个运行都很快,只有一个节点一直失败,查看ui页面也没有发现数据倾斜
    问题定位:通过查看节点的work日志发现如下输出:

    问题解决:修改spark的最大重试参数:spark.port.maxRetries 值从45=>16

    23.cloudera 更改spark高级配置:

    业务场景:在使用cloudera  manager搭建spark集群的过程中总是有些参数在配置界面中搜索不到

    问题解决:集群=>配置=>高级,找到右侧的显示所有说明,找到你要修改的配置文件就可以了

    24.Exception in thread "Thread-2" java.lang.OutOfMemoryError: PermGen space

    问题原因:在JVM中,PermGen用于保存加载的类,yarn Client模式的持久代默认大小是32M;

    解决方案:spark-submit时增加如下参数:“--driver-java-options -XX:MaxPermSize=256m"

    25.pyspark TypeError: 'JavaPackage' object is not callable

    场景:pyspark使用py4j调用java对象ALS,这里有兴趣同学可以根据报错去跟读源码

    问题原因:运行时找不到ALS类,也即没有spark-mllib包

    解决方案:spark-submit时添加如下参数“--jars /path/to/spark-mllib_${scala.version}-${spark.version}.jar”

    26、spark als StackOverflowError

    场景:

    als = ALS(maxIter=15, rank=rank, regParam=0.01, userCol="userId", itemCol="itemId", ratingCol="rating")

    model = als.fit(ratings)

    解决方案:

    一般情况下ALS收敛是非常快的,将iteration设置为<30的数字就可以了,绝大多数情况下,设置为15就行。次数过多的情况下就会出现:java.lang.StackOverflowError。当然,也可也通过设置checkpoint来解决。

    spark.sparkContext.setCheckpointDir("/tmp/als_checkpoint")

    als = ALS(maxIter=numIterations, rank=rank, regParam=0.01, userCol="userId", itemCol="itemId", ratingCol="rating",checkpointInterval=2)

    model = als.fit(ratings)

    spark相关错误和解决方法 

    1 概述

        Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。

        在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。

    2 防火墙

        部署好Spark的包和配置文件,on yarn的两种模式都无法运行,在NodeManager端的日志都是说Connection Refused,连接不上Driver所在的客户端节点,但是客户端的80端口可以正常访问!同时,在日志中有类似信息出现:

    Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory

    内存肯定是够的,但就是无法获取资源!检查防火墙,果然客户端只开启的对80端口的访问,其他都禁止了!如果你的程序在运行的时候也有类似连接被拒绝的情况,最好也是先检查下防火墙的配置!

    3 Spark Driver程序host的指定

        部署完Spark后,分别使用yarn-cluster模式和yarn-client模式运行Spark自带的计算pi的示例。

        Spark的一些配置文件除了一些基本属性外,均未做配置,结果运行的时候两种运行模式出现了不同的状况。yarn-cluster模式可以正常运行,yarn-client模式总是运行失败。查看ResourceManager、NodeManager端的日志,发现程序总是找不到ApplicationMaster,这就奇怪了!并且,客户端的Driver程序开启的端口,在NodeManager端访问被拒绝!非Spark的其他MR任务,能够正常执行。

    检查客户端配置文件,发现原来在客户端的/etc/hosts文件中,客户端的一个IP对应了多个Host,Driver程序会默认去取最后对应的那个Host,比如是hostB,但是在NodeManager端是配置的其他Host,hostA,所以导致程序无法访问。为了不影响其他的程序使用客户端的Host列表,这里在Spark配置文件spark-defaults.conf中使用属性spark.driver.host来指定yarn-client模式运行中和Yarn通信的DriverHost,此时yarn-client模式可以正常运行。

    上面配置完了之后,发现yarn-cluster模式又不能运行了!想想原因,肯定是上面那个配置参数搞的鬼,注释掉之后,yarn-cluster模式可以继续运行。原因是,yarn-cluster模式下,spark的入口函数是在客户端运行,但是Driver的其他功能是在ApplicationMaster中运行的,上面的那个配置相当于指定了ApplicationMaster的地址,实际上的ApplicationMaster在yarn-master模式下是由ResourceManager随机指定的。

    4 on  Yarn日志的查看

        测试环境下,通过yarn logs -applicationId xxx可以查看运行结束的Application的日志,但是搞到另一个环境下发现使用上述命令查看日志时,总是提示如下信息:

    Logs not available at /tmp/nm/remote/logs/hadoop/logs/application_xxx_xxx

    Log aggregation has not completed or is not enabled.

        去对应的NodeManger目录下,确实找不到日志文件。但是/tmp/nm/remote/logs却是在yarn-site.xml中指定了的目录,这个是对的,到底什么原因呢?难道是Yarn的日志聚集没有起作用?

        去NodeManager上查看对应Application的日志:

    2014-08-04 09:14:47,513 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.logaggregation.AppLogAggregatorImpl: Starting aggregate log-file for app application_xxx_xxx at /tmp/nm/remote/logs/spark/logs/application_xxx_xxx/hostB.tmp

    2014-08-04 09:14:47,525 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.logaggregation.AppLogAggregatorImpl: Uploading logs for container container_xxx_xxx_01_000007. Current good log dirs are /data/nm/log

    2014-08-04 09:14:47,526 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.logaggregation.AppLogAggregatorImpl: Uploading logs for container container_xxx_xxx_000001. Current good log dirs are /data/nm/log

    2014-08-04 09:14:47,526 INFO org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor: Deleting path : /data/nm/log/application_xxx_xxx

    2014-08-04 09:14:47,607 INFO org.apache.hadoop.yarn.server.nodemanager.containermanager.logaggregation.AppLogAggregatorImpl: Finished aggregate log-file for app application_xxx_xxx

        可见,日志聚集确实起作用了,但是为什么通过命令不能查看!猛然见看到日志中“/tmp/nm/remote/logs/spark/logs/ application_xxx_xxx/hostB.tmp”,日志的路径有问题,在使用yarn logs命令查看的时候,用的是hadoop用户,实际Spark Application的提交执行用的是spark用户,而yarn logs命令默认去找的是当前用户的路径,这就是查看不到日志的原因。切换到spark用户再查看,日志终于出来了!

    5 LZO相关问题

        如果在Spark中使用了LZO作为EventLog的的压缩算法等,就得实现安装好LZO这个东东,否则会出现类似于如下的异常:

    Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.

     at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:134)

     at org.apache.hadoop.io.compress.CompressionCodecFactory.<init>(CompressionCodecFactory.java:174)

     at org.apache.hadoop.mapred.TextInputFormat.configure(TextInputFormat.java:45)

     ... 66 more

    Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found

     at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:1680)

     at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:127)

     ... 68 more

    或者

    [ERROR] [2014-08-05 10:34:41 933] com.hadoop.compression.lzo.GPLNativeCodeLoader [main] (GPLNativeCodeLoader.java:36) Could not load native gpl library

    java.lang.UnsatisfiedLinkError: no gplcompression in java.library.path

        解决办法就是得安装好LZO,并且在HDFS、SPARK中配置好相关的包、文件等

    6 Spark Hive无法访问Mysql的问题

        生产环境下,节点之间肯定是有防火墙限制的,而且Hive的元数据库Mysql,更是对请求的IP和用户等限制的严格,如果在Spark集群中使用yarn-cluster模式进行提交Spark的Application,其运行时Driver是和ApplicationMaster运行在一起,由Yarn的ResourceManager负责分配到集群中的某个NodeManager节点上,如果在Hive-site.xml中只配置了Mysql数据库而没有配置MetaStore的话,也许会遇到连接元数据库失败的问题,此时,就得看下Hive-site.xml的配置,是否Mysql的相关权限配置正确、MetaStore服务是否可以正常连接。

    7 内存溢出问题

        在Spark中使用hql方法执行hive语句时,由于其在查询过程中调用的是Hive的获取元数据信息、SQL解析,并且使用Cglib等进行序列化反序列化,中间可能产生较多的class文件,导致JVM中的持久代使用较多,如果配置不当,可能引起类似于如下的OOM问题:

    Exception in thread "Thread-2" java.lang.OutOfMemoryError: PermGen space

        原因是实际使用时,如果用的是JDK1.6版本,Server模式的持久代默认大小是64M,Client模式的持久代默认大小是32M,而Driver端进行SQL处理时,其持久代的使用可能会达到90M,导致OOM溢出,任务失败。

    解决方法就是在Spark的conf目录中的spark-defaults.conf里,增加对Driver的JVM配置,因为Driver才负责SQL的解析和元数据获取。配置如下:

    spark.driver.extraJavaOptions -XX:PermSize=128M -XX:MaxPermSize=256M   

      但是,上述情况是在yarn-cluster模式下出现,yarn-client模式运行时倒是正常的,原来在$SPARK_HOME/bin/spark-class文件中已经设置了持久代大小:

    JAVA_OPTS="-XX:MaxPermSize=256m $OUR_JAVA_OPTS"

        当以yarn-client模式运行时,driver就运行在客户端的spark-submit进程中,其JVM参数是取的spark-class文件中的设置,所谓未出现持久代溢出现象。

        总结一下Spark中各个角色的JVM参数设置:    

    (1)Driver的JVM参数:
    -Xmx,-Xms,如果是yarn-client模式,则默认读取spark-env文件中的SPARK_DRIVER_MEMORY值,-Xmx,-Xms值一样大小;如果是yarn-cluster模式,则读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的JVM参数值。
    PermSize,如果是yarn-client模式,则是默认读取spark-class文件中的JAVA_OPTS="-XX:MaxPermSize=256m $OUR_JAVA_OPTS"值;如果是yarn-cluster模式,读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的JVM参数值。
    GC方式,如果是yarn-client模式,默认读取的是spark-class文件中的JAVA_OPTS;如果是yarn-cluster模式,则读取的是spark-default.conf文件中的spark.driver.extraJavaOptions对应的参数值。
    以上值最后均可被spark-submit工具中的--driver-java-options参数覆盖。

    (2)Executor的JVM参数:
    -Xmx,-Xms,如果是yarn-client模式,则默认读取spark-env文件中的SPARK_EXECUTOR_MEMORY值,-Xmx,-Xms值一样大小;如果是yarn-cluster模式,则读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。
    PermSize,两种模式都是读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。
    GC方式,两种模式都是读取的是spark-default.conf文件中的spark.executor.extraJavaOptions对应的JVM参数值。

    (3)Executor数目及所占CPU个数
    如果是yarn-client模式,Executor数目由spark-env中的SPARK_EXECUTOR_INSTANCES指定,每个实例的数目由SPARK_EXECUTOR_CORES指定;如果是yarn-cluster模式,Executor的数目由spark-submit工具的--num-executors参数指定,默认是2个实例,而每个Executor使用的CPU数目由--executor-cores指定,默认为1核。
    每个Executor运行时的信息可以通过yarn logs命令查看到,类似于如下:

    14/08/13 18:12:59 INFO org.apache.spark.Logging$class.logInfo(Logging.scala:58): Setting up executor with commands: List($JAVA_HOME/bin/java, -server, -XX:OnOutOfMemoryError='kill %p', -Xms1024m -Xmx1024m , -XX:PermSize=256M -XX:MaxPermSize=256M -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintHeapAtGC -Xloggc:/tmp/spark_gc.log, -Djava.io.tmpdir=$PWD/tmp, -Dlog4j.configuration=log4j-spark-container.properties, org.apache.spark.executor.CoarseGrainedExecutorBackend, akka.tcp://spark@sparktest1:41606/user/CoarseGrainedScheduler, 1, sparktest2, 3, 1>, <LOG_DIR>/stdout, 2>, <LOG_DIR>/stderr)

        其中,akka.tcp://spark@sparktest1:41606/user/CoarseGrainedScheduler表示当前的Executor进程所在节点,后面的1表示Executor编号,sparktest2表示ApplicationMaster的host,接着的3表示当前Executor所占用的CPU数目。

    8 序列化异常

    在Spark上执行hive语句的时候,出现类似于如下的异常:

    org.apache.spark.SparkDriverExecutionException: Execution error

        at org.apache.spark.scheduler.DAGScheduler.handleTaskCompletion(DAGScheduler.scala:849)

        at org.apache.spark.scheduler.DAGSchedulerEventProcessActor$$anonfun$receive$2.applyOrElse(DAGScheduler.scala:1231)

        at akka.actor.ActorCell.receiveMessage(ActorCell.scala:498)

        at akka.actor.ActorCell.invoke(ActorCell.scala:456)

        at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:237)

        at akka.dispatch.Mailbox.run(Mailbox.scala:219)

        at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:386)

        at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)

        at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)

        at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)

        at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)

    Caused by: java.lang.ClassCastException: scala.collection.mutable.HashSet cannot be cast to scala.collection.mutable.BitSet

        at org.apache.spark.sql.execution.BroadcastNestedLoopJoin$$anonfun$7.apply(joins.scala:336)

        at org.apache.spark.rdd.RDD$$anonfun$19.apply(RDD.scala:813)

        at org.apache.spark.rdd.RDD$$anonfun$19.apply(RDD.scala:810)

        at org.apache.spark.scheduler.JobWaiter.taskSucceeded(JobWaiter.scala:56)

        at org.apache.spark.scheduler.DAGScheduler.handleTaskCompletion(DAGScheduler.scala:845)

    排查其前后的日志,发现大都是序列化的东西:

    14/08/13 11:10:01 INFO org.apache.spark.Logging$class.logInfo(Logging.scala:58): Serialized task 8.0:3 as 20849 bytes in 0 ms

    14/08/13 11:10:01 INFO org.apache.spark.Logging$class.logInfo(Logging.scala:58): Finished TID 813 in 25 ms on sparktest0 (progress: 3/200)

      而在spark-default.conf中,事先设置了序列化方式为Kryo:

    spark.serializer org.apache.spark.serializer.KryoSerializer

    根据异常信息,可见是HashSet转为BitSet类型转换失败,Kryo把松散的HashSet转换为了紧凑的BitSet,把序列化方式注释掉之后,任务可以正常执行。难道Spark的Kryo序列化做的还不到位?此问题需要进一步跟踪。

    9 Executor僵死问题

        运行一个Spark任务,发现其运行速度远远慢于执行同样SQL语句的Hive的执行,甚至出现了OOM的错误,最后卡住达几小时!并且Executor进程在疯狂GC。

        截取其一Task的OOM异常信息:

    可以看到这是在序列化过程中发生的OOM。根据节点信息,找到对应的Executor进程,观察其Jstack信息:

    Thread 36169: (state = BLOCKED)

     - java.lang.Long.valueOf(long) @bci=27, line=557 (Compiled frame)

     - com.esotericsoftware.kryo.serializers.DefaultSerializers$LongSerializer.read(com.esotericsoftware.kryo.Kryo, com.esotericsoftware.kryo.io.Input, java.lang.Class) @bci=5, line=113 (Compiled frame)

     - com.esotericsoftware.kryo.serializers.DefaultSerializers$LongSerializer.read(com.esotericsoftware.kryo.Kryo, com.esotericsoftware.kryo.io.Input, java.lang.Class) @bci=4, line=103 (Compiled frame)

     - com.esotericsoftware.kryo.Kryo.readClassAndObject(com.esotericsoftware.kryo.io.Input) @bci=158, line=732 (Compiled frame)

     - com.esotericsoftware.kryo.serializers.DefaultArraySerializers$ObjectArraySerializer.read(com.esotericsoftware.kryo.Kryo, com.esotericsoftware.kryo.io.Input, java.lang.Class) @bci=158, line=338 (Compiled frame)

     - com.esotericsoftware.kryo.serializers.DefaultArraySerializers$ObjectArraySerializer.read(com.esotericsoftware.kryo.Kryo, com.esotericsoftware.kryo.io.Input, java.lang.Class) @bci=4, line=293 (Compiled frame)

     - com.esotericsoftware.kryo.Kryo.readObject(com.esotericsoftware.kryo.io.Input, java.lang.Class, com.esotericsoftware.kryo.Serializer) @bci=136, line=651 (Compiled frame)

     - com.esotericsoftware.kryo.serializers.FieldSerializer$ObjectField.read(com.esotericsoftware.kryo.io.Input, java.lang.Object) @bci=143, line=605 (Compiled frame)

     - com.esotericsoftware.kryo.serializers.FieldSerializer.read(com.esotericsoftware.kryo.Kryo, com.esotericsoftware.kryo.io.Input, java.lang.Class) @bci=44, line=221 (Compiled frame)

     - com.esotericsoftware.kryo.Kryo.readObject(com.esotericsoftware.kryo.io.Input, java.lang.Class, com.esotericsoftware.kryo.Serializer) @bci=136, line=651 (Compiled frame)

     - com.esotericsoftware.kryo.serializers.FieldSerializer$ObjectField.read(com.esotericsoftware.kryo.io.Input, java.lang.Object) @bci=143, line=605 (Compiled frame)

     - com.esotericsoftware.kryo.serializers.FieldSerializer.read(com.esotericsoftware.kryo.Kryo, com.esotericsoftware.kryo.io.Input, java.lang.Class) @bci=44, line=221 (Compiled frame)

     - com.esotericsoftware.kryo.Kryo.readClassAndObject(com.esotericsoftware.kryo.io.Input) @bci=158, line=732 (Compiled frame)

     - org.apache.spark.serializer.KryoDeserializationStream.readObject(scala.reflect.ClassTag) @bci=8, line=118 (Compiled frame)

     - org.apache.spark.serializer.DeserializationStream$$anon$1.getNext() @bci=10, line=125 (Compiled frame)

     - org.apache.spark.util.NextIterator.hasNext() @bci=16, line=71 (Compiled frame)

     - org.apache.spark.storage.BlockManager$LazyProxyIterator$1.hasNext() @bci=4, line=1031 (Compiled frame)

     - scala.collection.Iterator$$anon$13.hasNext() @bci=4, line=371 (Compiled frame)

     - org.apache.spark.util.CompletionIterator.hasNext() @bci=4, line=30 (Compiled frame)

     - org.apache.spark.InterruptibleIterator.hasNext() @bci=22, line=39 (Compiled frame)

     - scala.collection.Iterator$$anon$11.hasNext() @bci=4, line=327 (Compiled frame)

     - org.apache.spark.sql.execution.HashJoin$$anonfun$execute$1.apply(scala.collection.Iterator, scala.collection.Iterator) @bci=14, line=77 (Compiled frame)

     - org.apache.spark.sql.execution.HashJoin$$anonfun$execute$1.apply(java.lang.Object, java.lang.Object) @bci=9, line=71 (Interpreted frame)

     - org.apache.spark.rdd.ZippedPartitionsRDD2.compute(org.apache.spark.Partition, org.apache.spark.TaskContext) @bci=48, line=87 (Interpreted frame)

     - org.apache.spark.rdd.RDD.computeOrReadCheckpoint(org.apache.spark.Partition, org.apache.spark.TaskContext) @bci=26, line=262 (Interpreted frame)

    有大量的BLOCKED线程,继续观察GC信息,发现大量的FULL GC。

    10 出现这个错误:org.apache.spark.SparkException: A master URL must be set in your configuration

    val conf = new SparkConf().setAppName("Simple Application").setMaster("spark://myhost:7077")

    11 saprk中的master配置,可以在spark-defult.conf里面配置,也可以在spark.env文件中配置

    export JAVA_HOME=/opt/jdk1.8.0_91

    export SCALA_HOME=/usr/share/scala

    export SPARK_MASTER_IP=192.168.40.128

    export SPARK_WORKER_MEMORY=10G

    12 遇到org.apache.spark.SparkException: java.lang.ClassNotFoundException: test$1错误

              可以将代码中的SparkConf中添加setJar方法,代码必须打包成jar包然后再将jar包的path添加进去。如下所示:

    String[] jar_path = {"C:\Users\wuminglang\IdeaProjects\test\target\spark_remote-1.0-SNAPSHOT.jar"};

    SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount").setMaster("spark://192.168.40.128:7077").setJars(jar_path);

    13 使用DataFrame的java接口时。使用map遇到的问题,如下:

    // SQL can be run over RDDs that have been registered as tables.

    DataFrame teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19");

    List<String> teenagerNames = teenagers.map(
                new Function<Row, String>() {
              public String call(Row row) {
                return "Name: " + row.getString(0);
              }

            }).collect();

    // 提示错误如下:

    /* The method map(Function1, ClassTag) in the type DataFrame is not applicable for the arguments (new Function(){}) */

    解决方案:

    Java 6 & 7

    List<String> teenagerNames = teenagers.javaRDD().map(

        new Function<Row, String>() {

        public String call(Row row) {

            return "Name: " + row.getString(0);

        }}).collect();

    Java 8

    List<String> t2 = teenagers.javaRDD().map(

        row -> "Name: " + row.getString(0)).collect();

    Once you call javaRDD() it works just like any other RDD map function. This works with Spark 1.3.0 and up.

    14  在未启动hadoop时出现了异常如下(textFile读取hdfs上的数据时没有读取到数据导致):

    16/10/28 11:23:37 INFO SparkContext: Created broadcast 0 from textFile at test.java:43

    Exception in thread "main" org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree:

         解决方案:

         主要原因在于下面的textFile读取文件时未读取到数据,导致上面的错误。因此需要看文件路径或者hdfs是否启动。

    JavaRDD<String> lines = ctx.textFile("hdfs://192.168.40.128:9000/user/input/ips_unpack_2016_08_05.txt", 1);

         在我的环境下启动hadoop

    $HADOOP_HOME/sbin/start-all.sh

    15  在spark的java的API中。当对一个文件进行map处理时,最后输出的为指针位置,主要原因为在打印出的信息时是一个对象,主要是返回类型的确定。

    public class sparkLearn {

        public static void main(String[] args) {

            String[] jar_path = {"C:\Users\wuminglang\IdeaProjects\test\target\spark_remote-1.0-SNAPSHOT.jar"};

            SparkConf conf = new SparkConf().setAppName("LearningSpark").setMaster("spark://192.168.40.128:7077").setJars(jar_path);

            JavaSparkContext java_sc = new JavaSparkContext(conf);

            JavaRDD<String> lines = java_sc.textFile("hdfs://192.168.40.128:9000/user/input/ips_unpack_2016_08_05.txt");

            System.out.println(lines.count());  // 统计读入文件的行数

            // 采用flatMap进行map操作

            JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>(){

                @Override

                public Iterable<String> call(String x) {

                    List xx = Arrays.asList(x.split(","));

                    return(xx);

                }

            });

            JavaRDD line = lines.map(x -> x.split(","));  // scala输出的类型为Array<Array[String]>

            List out = words.top(10);

            System.out.println(out);

            List<String[]> l =  line.take(50);  // 返回的list

            String[] ll = l.get(0);  // 返回的string list

            System.out.println(ll[0]);  // 查看list中的元素

            java_sc.stop();

        }

    }

    16 Operation category READ is not supported in state standby

         org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby

         此时请登录Hadoop的管理界面查看运行节点是否处于standby

    如登录地址是:

    http://192.168.50.221:50070/dfshealth.html#tab-overview

         如果是,则不可在处于StandBy机器运行spark计算,因为该台机器为备分机器

    17 配置spark.deploy.recoveryMode选项为ZOOKEEPER

         如果不设置spark.deploy.recoveryMode的话,那么集群的所有运行数据在Master重启是都会丢失,可参考BlackHolePersistenceEngine的实现。

    18 多Master如何配置

         因为涉及到多个Master,所以对于应用程序的提交就有了一点变化,因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单,只需要在SparkContext指向一个Master列表就可以了,如spark://host1:port1,host2:port2,host3:port3,应用程序会轮询列表。

    19 No Space Left on the device(Shuffle临时文件过多)

             由于Spark在计算的时候会将中间结果存储到/tmp目录,而目前linux又都支持tmpfs,其实就是将/tmp目录挂载到内存当中。

    那么这里就存在一个问题,中间结果过多导致/tmp目录写满而出现如下错误

    No Space Left on the device

    解决办法

    第一种:修改配置文件spark-env.sh,把临时文件引入到一个自定义的目录中去即可

    export SPARK_LOCAL_DIRS=/home/utoken/datadir/spark/tmp

    第二种:偷懒方式,针对tmp目录不启用tmpfs,直接修改/etc/fstab

    20 java.lang.OutOfMemory, unable to create new native thread

    Caused by: java.lang.OutOfMemoryError: unable to create new native thread

    at java.lang.Thread.start0(Native Method)

    at java.lang.Thread.start(Thread.java:640)

    上面这段错误提示的本质是Linux操作系统无法创建更多进程,导致出错,并不是系统的内存不足。因此要解决这个问题需要修改Linux允许创建更多的进程,就需要修改Linux最大进程数。

    [utoken@nn1 ~]$ulimit -a

    临时修改允许打开的最大进程数

    [utoken@nn1 ~]$ulimit -u 65535

    临时修改允许打开的文件句柄

    [utoken@nn1 ~]$ulimit -n 65535

    永久修改Linux最大进程数量

    [utoken@nn1 ~]$ vim /etc/security/limits.d/90-nproc.conf

    *          soft    nproc     60000

    root       soft    nproc     unlimited

    永久修改用户打开文件的最大句柄数,该值默认1024,一般都会不够,常见错误就是not open file

    [utoken@nn1 ~]$ vim /etc/security/limits.conf

    bdata  soft    nofile  65536

    bdata  hard    nofile  65536

    21 Worker节点中的work目录占用许多磁盘空间

    目录地址:/home/utoken/software/spark-1.3.0-bin-hadoop2.4/work

    这些是Driver上传到worker的文件,需要定时做手工清理,否则会占用许多磁盘空间 

    22 spark-shell提交Spark Application如何解决依赖库

    spark-shell的话,利用--driver-class-path选项来指定所依赖的jar文件,注意的是--driver-class-path后如果需要跟着多个jar文件的话,jar文件之间使用冒号(:)来分割。

    23 Spark在发布应用的时候,出现连接不上master问题,如下

    15/11/19 11:35:50 INFO AppClient$ClientEndpoint: Connecting to master spark://s1:7077...

    15/11/19 11:35:50 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkMaster@s1:7077] has failed, address is now gated for [5000] ms. Reason: [Disassociated]

    解决方式

    检查所有机器时间是否一致、hosts是否都配置了映射、客户端和服务器端的Scala版本是否一致、Scala版本是否和Spark兼容

    检查是否兼容问题请参考官方网站介绍:

    24 开发spark应用程序(和Flume-NG结合时)发布应用时可能出现org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800

    15/11/27 10:33:44 ERROR ReceiverSupervisorImpl: Stopped receiver with error: org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800
    15/11/27 10:33:44 ERROR Executor: Exception in task 0.0 in stage 2.0 (TID 70)
    org.jboss.netty.channel.ChannelException: Failed to bind to: /192.168.10.156:18800

            at org.jboss.netty.bootstrap.ServerBootstrap.bind(ServerBootstrap.java:272)

    Caused by: java.net.BindException: Cannot assign requested address

    由于spark通过Master发布的时候,会自动选取发送到某一台的worker节点上,所以这里绑定端口的时候,需要选择相应的worker服务器,但是由于我们无法事先了解到,spark发布到哪一台服务器的,所以这里启动报错,是因为在 192.168.10.156:18800的机器上面没有启动Driver程序,而是发布到了其他服务器去启动了,所以无法监听到该机器出现问题,所以我们需要设置spark分发包时,发布到所有worker节点机器,或者发布后,我们去寻找发布到了哪一台机器,重新修改绑定IP,重新发布,有一定几率发布成功。详情可见《印象笔记-战5渣系列——Spark Streaming启动问题 - 推酷》

    25 spark-shell 找不到hadoop so问题解决

    [main] WARN  org.apache.hadoop.util.NativeCodeLoader  - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

    在Spark的conf目录下,修改spark-env.sh文件,加入LD_LIBRARY_PATH环境变量,值为HADOOP的native库路径即可.

    26 ERROR XSDB6: Another instance of Derby may have already booted the database /home/bdata/data/metastore_db.

    在使用Hive on Spark模式操作hive里面的数据时,报以上错误,原因是因为HIVE采用了derby这个内嵌数据库作为数据库,它不支持多用户同时访问,解决办法就是把derby数据库换成mysql数据库即可

    变更方式

    27 java.lang.IllegalArgumentException: java.net.UnknownHostException: dfscluster

    解决办法:

    找不到hdfs集群名字dfscluster,这个文件在HADOOP的etc/hadoop下面,有个文件hdfs-site.xml,复制到Spark的conf下,重启即可

    如:执行脚本,分发到所有的Spark集群机器中,

    [bdata@bdata4 hadoop]$ for i in {34,35,36,37,38};do scp hdfs-site.xml 192.168.10.$i:/u01/spark-1.5.1/conf/ ; done

    28 Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

    问题:在执行yarn集群或者客户端时,报以上错误,

    [bdata@bdata4 bin]$ ./spark-sql --master yarn-client

    Exception in thread "main" java.lang.Exception: When running with master 'yarn-client' either HADOOP_CONF_DIR or YARN_CONF_DIR must be set in the environment.

    解决办法

    根据提示,配置HADOOP_CONF_DIR or YARN_CONF_DIR的环境变量即可

    export HADOOP_HOME=/u01/hadoop-2.6.1

    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

    PATH=$PATH:$HOME/.local/bin:$HOME/bin:$SQOOP_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin

    29 Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:16,512 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 0 on 192.168.10.38: remote Rpc client disassociated

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:23,188 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 1 on 192.168.10.38: remote Rpc client disassociated

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:29,203 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 2 on 192.168.10.38: remote Rpc client disassociated

    [Stage 0:>                                                         (0 + 4) / 42]2016-01-15 11:28:36,319 [org.apache.spark.scheduler.TaskSchedulerImpl]-[ERROR] Lost executor 3 on 192.168.10.38: remote Rpc client disassociated

    2016-01-15 11:28:36,321 [org.apache.spark.scheduler.TaskSetManager]-[ERROR] Task 3 in stage 0.0 failed 4 times; aborting job

    Exception in thread "main" org.apache.spark.SparkException : Job aborted due to stage failure: Task 3 in stage 0.0 failed 4 times, most recent failure: Lost task 3.3 in stage 0.0 (TID 14, 192.168.10.38): ExecutorLostFailure (executor 3 lost)

    Driver stacktrace:

          at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1283)

    解决方案

    这里遇到的问题主要是因为数据源数据量过大,而机器的内存无法满足需求,导致长时间执行超时断开的情况,数据无法有效进行交互计算,因此有必要增加内存

    30 长时间等待无反应,并且看到服务器上面的web界面有内存和核心数,但是没有分配,如下图

    [Stage 0:>                                                         (0 + 0) / 42]

    或者日志信息显示:

    16/01/15 14:18:56 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

    解决方案

    出现上面的问题主要原因是因为我们通过参数spark.executor.memory设置的内存过大,已经超过了实际机器拥有的内存,故无法执行,需要等待机器拥有足够的内存后,才能执行任务,可以减少任务执行内存,设置小一些即可

    31 内存不足或数据倾斜导致Executor Lost(spark-submit提交)

    TaskSetManager: Lost task 1.0 in stage 6.0 (TID 100, 192.168.10.37): java.lang.OutOfMemoryError: Java heap space

    16/01/15 14:29:51 INFO BlockManagerInfo: Added broadcast_8_piece0 in memory on 192.168.10.37:57139 (size: 42.0 KB, free: 24.2 MB)

    16/01/15 14:29:53 INFO BlockManagerInfo: Added broadcast_8_piece0 in memory on 192.168.10.38:53816 (size: 42.0 KB, free: 24.2 MB)
    16/01/15 14:29:55 INFO TaskSetManager: Starting task 3.0 in stage 6.0 (TID 102, 192.168.10.37, ANY, 2152 bytes)
    16/01/15 14:29:55 WARN TaskSetManager: Lost task 1.0 in stage 6.0 (TID 100, 192.168.10.37):java.lang.OutOfMemoryError: Java heap space
            at java.io.BufferedOutputStream.<init>(BufferedOutputStream.java:76)
            at java.io.BufferedOutputStream.<init>(BufferedOutputStream.java:59)
            at org.apache.spark.sql.execution.UnsafeRowSerializerInstance$$anon$2.<init>(UnsafeRowSerializer.scala:55)
            at org.apache.spark.sql.execution.UnsafeRowSerializerInstance.serializeStream(UnsafeRowSerializer.scala:52)
            at org.apache.spark.storage.DiskBlockObjectWriter.open(DiskBlockObjectWriter.scala:92)
            at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.insertAll(BypassMergeSortShuffleWriter.java:110)
            at org.apache.spark.shuffle.sort.SortShuffleWriter.write(SortShuffleWriter.scala:73)
            at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
            at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
            at org.apache.spark.scheduler.Task.run(Task.scala:88)
            at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
            at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
            at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
            at java.lang.Thread.run(Thread.java:744)

    16/01/15 14:29:55 ERROR TaskSchedulerImpl: Lost executor 6 on 192.168.10.37: remote Rpc client disassociated
    16/01/15 14:29:55 INFO TaskSetManager: Re-queueing tasks for 6 from TaskSet 6.0
    16/01/15 14:29:55 WARN ReliableDeliverySupervisor: Association with remote system [akka.tcp://sparkExecutor@192.168.10.37:42250] has failed, address is now gated for [5000] ms. Reason: [Disassociated]

    16/01/15 14:29:55 WARN TaskSetManager: Lost task 3.0 in stage 6.0 (TID 102, 192.168.10.37): ExecutorLostFailure (executor 6 lost)

    16/01/15 14:29:55 INFO DAGScheduler: Executor lost: 6 (epoch 8)
    16/01/15 14:29:55 INFO BlockManagerMasterEndpoint: Trying to remove executor 6 from BlockManagerMaster.
    16/01/15 14:29:55 INFO BlockManagerMasterEndpoint: Removing block manager BlockManagerId(6, 192.168.10.37, 57139)
    16/01/15 14:29:55 INFO BlockManagerMaster: Removed 6 successfully in removeExecutor
    16/01/15 14:29:55 INFO AppClient$ClientEndpoint: Executor updated: app-20160115142128-0001/6 is now EXITED (Command exited with code 52)
    16/01/15 14:29:55 INFO SparkDeploySchedulerBackend: Executor app-20160115142128-0001/6 removed: Command exited with code 52

    16/01/15 14:29:55 INFO SparkDeploySchedulerBackend: Asked to remove non-existent executor 6

    .......

    org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 6.0 failed 4 times, most recent failure: Lost task 0.3 in stage 6.0 (TID 142, 192.168.10.36): ExecutorLostFailure (executor 4 lost)

    ......

    WARN TaskSetManager: Lost task 4.1 in stage 6.0 (TID 137, 192.168.10.38):java.lang.OutOfMemoryError: GC overhead limit exceeded

    解决办法:

         由于我们在执行Spark任务是,读取所需要的原数据,数据量太大,导致在Worker上面分配的任务执行数据时所需要的内存不够,直接导致内存溢出了,所以我们有必要增加Worker上面的内存来满足程序运行需要。

    在Spark Streaming或者其他spark任务中,会遇到在Spark中常见的问题,典型如Executor Lost 相关的问题(shuffle fetch 失败,Task失败重试等)。这就意味着发生了内存不足或者数据倾斜的问题。这个目前需要考虑如下几个点以获得解决方案:

    A、相同资源下,增加partition数可以减少内存问题。 原因如下:通过增加partition数,每个task要处理的数据少了,同一时间内,所有正在运行的task要处理的数量少了很多,所有Executor占用的内存也变小了。这可以缓解数据倾斜以及内存不足的压力。

    B、关注shuffle read 阶段的并行数。例如reduce,group 之类的函数,其实他们都有第二个参数,并行度(partition数),只是大家一般都不设置。不过出了问题再设置一下,也不错。

    C、给一个Executor 核数设置的太多,也就意味着同一时刻,在该Executor 的内存压力会更大,GC也会更频繁。我一般会控制在3个左右。然后通过提高Executor数量来保持资源的总量不变。

    32  Spark Streaming 和kafka整合后读取消息报错:OffsetOutOfRangeException

    解决方案:如果和kafka消息中间件结合使用,请检查消息体是否大于默认设置1m,如果大于,则需要设置fetch.message.max.bytes=1m,这里需要把值设置大些

    33 java.io.IOException : Could not locate executable nullinwinutils.exe in the Hadoop binaries.(spark sql on hive 任务引发HiveContext NullPointerException)

    解决办法

    在开发hive和Spark整合的时候,如果是Windows系统,并且没有配置HADOOP_HOME的环境变量,那么可能找不到winutils.exe这个工具,由于使用hive时,对该命令有依赖,所以不要忽视该错误,否则将无法创建HiveContext,一直报Exception in thread "main" java.lang.RuntimeException:java.lang.NullPointerException

    因此,解决该办法有两个方式

    A、把任务打包成jar,上传到服务器上面,服务器是配置过HADOOP_HOME环境变量的,并且不需要依赖winutils,所以只需要通过spark-submit方式提交即可,如:

    [bdata@bdata4 app]$ spark-submit --class com.pride.hive.HiveOnSparkTest --master spark://bdata4:7077 spark-simple-1.0.jar

    B、解决winutils.exe命令不可用问题,配置Windows上面HADOOP_HOME的环境变量,或者在程序最开始的地方设置HADOOP_HOME的属性配置,这里需要注意,由于最新版本已经没有winutils这些exe命令了,我们需要在其他地方下载该命令放入HADOOP的bin目录下,当然也可以直接配置下载项目的环境变量,变量名一定要是HADOOP_HOME才行

    下载地址:https://github.com/srccodes/hadoop-common-2.2.0-bin/archive/master.zip (记得翻墙哦)

    任何项目都生效,需要配置Windows的环境变量,如果只在程序中生效可在程序中配置即可,如

    //用于解决Windows下找不到winutils.exe命令

    System. setProperty("hadoop.home.dir", "E:\Software\hadoop-common-2.2.0-bin" );

    34 The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------

    解决办法

    1、程序中设置环境变量:System.setProperty("HADOOP_USER_NAME", "bdata")

    2、修改HDFS的目录权限

    Update the permission of your /tmp/hive HDFS directory using the following command

    #hadoop dfs -chmod 777 /tmp/hive

    此问题暂未解决,估计是17点解决winutils有问题,建议最好把任务程序发布到服务器上面解决

    35 Exception in thread "main" org.apache.hadoop.security.AccessControlException : Permission denied: user=Administrator, access=WRITE, inode="/data":bdata:supergroup:drwxr-xr-x

    解决办法

    1、在系统的环境变量或java JVM变量里面添加HADOOP_USER_NAME,如程序中添加System.setProperty("HADOOP_USER_NAME", "bdata");,这里的值就是以后会运行HADOOP上的Linux的用户名,如果是eclipse,则修改完重启eclipse,不然可能不生效

    2、hdfs dfs -chmod 777 修改相应权限地址

    36 运行Spark-SQL报错:org.apache.spark.sql.AnalysisException: unresolved operator 'Project

    解决办法:

    在Spark-sql和hive结合时或者单独Spark-sql,运行某些sql语句时,偶尔出现上面错误,那么我们可以检查一下sql的问题,这里遇到的问题是嵌套语句太多,导致spark无法解析,所以需要修改sql或者改用其他方式处理;特别注意该语句可能在hive里面没有错误,spark才会出现的一种错误。

    37 输出目录已存在
     

     diagnostics: Application application_1444384383185_2518 failed 2 times due to AM Container for appattempt_1444384383185_2518_000002 exited with  exitCode: 15 due to: Exception from container-launch:

    org.apache.hadoop.util.Shell$ExitCodeException:

            at org.apache.hadoop.util.Shell.runCommand(Shell.java:505)

            at org.apache.hadoop.util.Shell.run(Shell.java:418)

            at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:650)

            at org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor.launchContainer(LinuxContainerExecutor.java:279)

            at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:283)

            at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:79)

            at java.util.concurrent.FutureTask.run(FutureTask.java:262)

            at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)

            at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)

            at java.lang.Thread.run(Thread.java:745)

    main : command provided 1

    main : user is yule

    main : requested yarn user is yule

    Container exited with a non-zero exit code 15

    .Failing this attempt.. Failing the application.

             ApplicationMaster host: N/A

             ApplicationMaster RPC port: -1

             queue: root.default

             start time: 1447662442842

             final status: FAILED

             tracking URL: a01.master.spark.hadoop.qingdao.youku:8088/cluster/app/application_1444384383185_2518

             user: yule

    Exception in thread "main" org.apache.spark.SparkException: Application finished with failed status

            at org.apache.spark.deploy.yarn.Client.run(Client.scala:622)

            at org.apache.spark.deploy.yarn.Client$.main(Client.scala:647)

            at org.apache.spark.deploy.yarn.Client.main(Client.scala)

            at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)

            at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)

            at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)

            at java.lang.reflect.Method.invoke(Method.java:601)

            at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:569)

            at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:166)

            at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:189)

            at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:110)

            at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)



    解决:删除输出目录
    hadoop fs -rmr /workspace/yule/test/sparkoutput1

    38 下标越界

    Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=128M; support was removed in 8.0
    Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=256M; support was removed in 8.0
    16/11/04 15:29:27 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
    16/11/04 15:29:28 WARN mapreduce.JobSubmitter: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
    16/11/04 15:29:28 INFO input.FileInputFormat: Total input paths to process : 1
    16/11/04 15:29:28 INFO mapreduce.JobSubmitter: number of splits:1
    16/11/04 15:29:29 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1478237910247_0007
    16/11/04 15:29:29 INFO impl.YarnClientImpl: Submitted application application_1478237910247_0007
    16/11/04 15:29:29 INFO mapreduce.Job: The url to track the job: http://open003:8188/proxy/application_1478237910247_0007/
    16/11/04 15:29:29 INFO mapreduce.Job: Running job: job_1478237910247_0007
    16/11/04 15:29:34 INFO mapreduce.Job: Job job_1478237910247_0007 running in uber mode : false
    16/11/04 15:29:34 INFO mapreduce.Job:  map 0% reduce 0%
    16/11/04 15:29:38 INFO mapreduce.Job: Task Id : attempt_1478237910247_0007_m_000000_0, Status : FAILED
    Error: java.lang.ArrayIndexOutOfBoundsException: 2
            at libai_log$LogParser.parseVersion(libai_log.java:173)
            at libai_log$LogParser.parse(libai_log.java:118)
            at libai_log$MyMapper.map(libai_log.java:75)
            at libai_log$MyMapper.map(libai_log.java:65)
            at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
            at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:784)
            at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
            at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163)
            at java.security.AccessController.doPrivileged(Native Method)
            at javax.security.auth.Subject.doAs(Subject.java:422)
            at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1628)
            at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

    解决办法:查看脚本和字段是否一致,对脚本进行修改

  • 相关阅读:
    循环队列
    UVa10000_Longest Paths(最短路SPFA)
    最新jhost免费jsp云空间会员邀请码
    Vertica: 基于DBMS架构的列存储数据仓库
    java中接口的定义与实现
    【C++知识汇总】运营商 &amp; 运算符重载
    SVN与eclipse整合和利用、SVN与Apache综合
    Java单链逆转
    hdu1115(重力算法的多边形中心)
    高效C++规划
  • 原文地址:https://www.cnblogs.com/timssd/p/4748153.html
Copyright © 2011-2022 走看看