zoukankan      html  css  js  c++  java
  • 0 Spark调优

    1. 开发调优

       - 避免创建重复的RDD

       - 尽可能复用同一个RDD

       - 对多次使用的RDD进行持久化

       - 尽量避免使用shuffle类算子

       - 使用map-side预聚合的shuffle操作(在每个节点本地对相同的key进行一次聚合操作,map-side预聚合之后,每个节点本地就只会有一条相同的key)

       - 使用高性能的算子

       - 广播大变量

       - 使用Kryo优化序列化性能

       - 优化数据结构

     

    2. 资源参数调优

       - 运行时架构

       - 运行流程

       - 调优

         - executor配置

         - driver配置

         - 并行度

         - 网络超时

         - 数据本地化

         - JVM/gc配置

    3. 数据倾斜调优

       - 使用Hive ETL预处理数据

       - 过滤少数导致倾斜的key

       - 提高shuffle操作的并行度

       - 两阶段聚合

       - 将reduce join转为map join

       - 使用随机前缀和扩容RDD进行join

    4. Shuffle调优

       - shuffle原理

       - shuffle演进

       - 调优

       - join类型

    5. 其他优化项

       - 使用DataFrame/DataSet

  • 相关阅读:
    <context-param>与<init-param>的区别与作用(转自青春乐园)(
    使用Derby ij客户端工具
    转载 Ofbiz 入门教程
    数据库中插入和读取图片
    事务的使用
    存储过程
    触发器 的使用
    JS面试题及答案
    课程主页面三个接口开发
    增加media文件配置
  • 原文地址:https://www.cnblogs.com/chen8023miss/p/11304120.html
Copyright © 2011-2022 走看看