zoukankan      html  css  js  c++  java
  • spark优化——依赖包传入HDFS_spark.yarn.jar和spark.yarn.archive的使用

    一、参数说明

    启动Spark任务时,在没有配置spark.yarn.archive或者spark.yarn.jars时, 会看到不停地上传jar,非常耗时;使用spark.yarn.archive可以大大地减少任务的启动时间,整个处理过程如下。

    二、spark.yarn.archive使用

    1.在本地创建zip文件

    silent@bd01:~/env/spark$ cd jars/
    silent@bd01:~/env/spark$ zip spark2.0.0.zip ./*

    注:zip包为全量包

    2.上传至HDFS并更改权

    silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -mkdir /tmp/spark-archive
    silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -put ./spark2.0.0.zip /tmp/spark-archive
    silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -chmod 775 /tmp/spark-archive/spark2.0.0.zip.zip

    3.配置spark-defaut.conf

    spark.yarn.archive  hdfs:///tmp/spark-archive/spark2.0.0.zip

    三、spark.yarn.jars使用说明

    1. 上传依赖jar包

    silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -mkdir hdfs://bd01/user/asiainfo/jars/
    silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -put ./spark2.0.0.zip hdfs://bd01/user/asiainfo/jars/
    silent@bd01:~/env/spark$ /usr/ndp/current/hdfs_client/bin/hdfs dfs -chmod 775 hdfs://bd01/user/asiainfo/jars/spark2.0.0.zip.zip

    2.配置spark-defaut.conf

    spark.yarn.jars=local:/opt/cloudera/parcels/CDH-6.1.0-1.cdh6.1.0.p0.770702/lib/spark/jars/*,local:/opt/cloudera/parcels/CDH-6.1.0-1.cdh6.1.0.p0.770702/lib/spark/hive/*,hdfs://bd01/user/asiainfo/jars/*.jar

    注:本地配置local,hdfs标记为hdfs目录即可

  • 相关阅读:
    Node.js~在linux上的部署~pm2管理工具的使用
    在SSIS包中使用 Checkpoint从失败处重新启动包
    自己的第一个android应用(天气)
    ADF 项目创建流程
    HDU2159:FATE(二维完全背包)
    hdu 1542 Atlantis
    POJ 1037 DP
    移动互联与大数据之美-逐浪CMS2 X1.1发布
    SGU 201 Non Absorbing DFA (DP)
    基于SMTP协议的CMD命令邮件发送
  • 原文地址:https://www.cnblogs.com/yyy-blog/p/11110388.html
Copyright © 2011-2022 走看看