【Spark篇】---Spark故障解决（troubleshooting） - 走看看

zoukankan html css js c++ java

【Spark篇】---Spark故障解决（troubleshooting）

一、前述

本文总结了常用的Spark的troubleshooting。

二、具体

1、shuffle file cannot find：磁盘小文件找不到。

1) connection timeout ----shuffle file cannot find

提高建立连接的超时时间，或者降低gc，降低gc了那么spark不能堆外提供服务的时间就少了，那么超时的可能就会降低。

2) fetch data fail ---- shuffle file cannot find

提高拉取数据的重试次数以及间隔时间。

3) OOM/executor lost ---- shuffle file cannot find

提高堆外内存大小，提高堆内内存大小。

2、reduce OOM

BlockManager拉取的数据量大，reduce task处理的数据量小

解决方法：

1) 降低每次拉取的数据量

2) 提高shuffle聚合的内存比例

3) 提高Executor的内存比例

3、序列化问题

自定义类时别忘实现序列化。

4、Null值问题

val rdd = rdd.map{x=>{

x+”~”;

}}

rdd.foreach{x=>{

System.out.println(x.getName())

}}

查看全文

相关阅读:
[AS3]AMF3+JAVA的调用范例
 SmartFoxServer,多人flash游戏开发
 Flex2 发现之旅：在Flex中嵌入完整HTML页面
 让.Net 程序脱离.net framework框架运行
 ASP.NET 数据列表控件的分页总结
 中国移动飞信免费发短信API接口（第三方 Fetion API）[原创]
Ubuntu下安装wine详细介绍
 SQL SERVER 2008 R2 序列号大全
 linux 下安装ATI 显卡驱动
 jdk 环境变量设置

原文地址：https://www.cnblogs.com/LHWorldBlog/p/8506167.html

Copyright © 2011-2022 走看看