zoukankan      html  css  js  c++  java
  • pyspark Sparkconf()参数配置

    from pyspark import SparkContext, SparkConf
    from pyspark.sql import SparkSession
    
    
    def create_sc():
        sc_conf = SparkConf()
        sc_conf.setMaster('spark://master:7077')
        sc_conf.setAppName('my-app')
        sc_conf.set('spark.executor.memory', '2g')  #executor memory是每个节点上占用的内存。每一个节点可使用内存
        sc_conf.set("spark.executor.cores", '4') #spark.executor.cores:顾名思义这个参数是用来指定executor的cpu内核个数,分配更多的内核意味着executor并发能力越强,能够同时执行更多的task
        sc_conf.set('spark.cores.max', 40)    #spark.cores.max:为一个application分配的最大cpu核心数,如果没有设置这个值默认为spark.deploy.defaultCores
        sc_conf.set('spark.logConf', True)    #当SparkContext启动时,将有效的SparkConf记录为INFO。
        print(sc_conf.getAll())
    
        sc = SparkContext(conf=sc_conf)
    
        return sc
    from pyspark.conf import SparkConf
    conf=SparkConf()
            conf.set('spark.sql.execute.arrow.enabled','true')
            if os.getenv("APP_MODE") == 'prod':
                """
                集群环境
                """
                url = 'spark://master:7077'
                conf.setAppName('prod-practice-info').setMaster(url).set("spark.driver.maxResultSize", "12g").set("spark.executor.memory", '4g')
            else:
                """
                本地环境
                """
                print("本地环境")
                url = 'local[*]'
                conf.setAppName('prod-practice-info').setMaster(url)
            spark = SparkSession.builder. 
                config(conf=conf).
                getOrCreate()
  • 相关阅读:
    [BZOJ4755][JSOI2016]扭动的回文串(manacher+Hash)
    十二省联考2019部分题解
    [BZOJ2959]长跑(LCT+并查集)
    [BZOJ4541][HNOI2016]矿区(平面图转对偶图)
    笛卡尔树
    [CF896C]Willem, Chtholly and Seniorious(珂朵莉树)
    [BZOJ4349]最小树形图
    [BZOJ1858][SCOI2010]序列操作(线段树)
    [PA2014]Parking
    [PA2014]Budowa
  • 原文地址:https://www.cnblogs.com/ExMan/p/14443231.html
Copyright © 2011-2022 走看看