7. spark使用中的优化 - 走看看

zoukankan html css js c++ java

7. spark使用中的优化
spark的yarn模式优化

问题：每次spark on yarn时都要把spark/jars下的所有jar文件压缩，并上传到HDFS上的临时目录下

解决：上传jars中jar的压缩包到hdfs，并在spark-defaults.conf配置指定位置

入库优化

map、filter等是针对单个元素变换，

mapPartitions和mapPartitionsWithIndex是以分区为单位，元素通过迭代器组织在一起；对入库操作，如将数据写入mysql中，每个分区开启一个连接

数据倾斜：byKey操作

1、设计key，两次reduceByKey

2、随机分区，两次reduceByKey，较好

repartition 和 coalesce
rdd.repartition(n)调用的就是coalesce，始终进行shuffle操作。如果是减少分区，推荐使用coalesce,可以指定是否进行shuffle操作，默认是false即不分区通过coalesce增加分区时，必须指定shuffle为true，否则分区数不变。
　　
渐变 --> 突变
查看全文

相关阅读:
构建Python+Selenium2自动化测试环境<一>
C学习笔记（七）C控制语句：分支和跳转
 C学习笔记（三）数据和C
C学习笔记（四）格式化输入输出
 C学习笔记（二）C语言概述
 C学习笔记（一）概览
 C学习笔记（五）运算符、表达式和语句
 C学习笔记（六）C控制语句：循环
 投资者关系（IR）简介
 云计算平台简介（App Engine）

原文地址：https://www.cnblogs.com/lybpy/p/9782880.html

Copyright © 2011-2022 走看看