spark-submit为各种集群管理器提供了统一的工具来提交作业。如果在调用spark-submit时除了脚本或jar包的名字之外没有别的参数,那么这个spark程序只会在本地运行。当我们希望将应用提交到spark集群的时候,就需要设置以下参数:
--master:表示要连接的集群管理器。 spark://host:port:连接到指定端口的spark独立集群上。默认情况下spark独立主节点使用7077端口 mesos://host:port:连接到指定端口的mesos集群上。默认5050端口 yarn:连接到yarn集群。当在yarn上运行时,需要设置环境变量HADOOP_CONF_DIR指向Hadoop配置目录,以获取集群信息。 local:运行本地模式,使用单核 local[N]:运行本地模式,使用N个核心 local[*]:运行本地模式,使用尽可能多的核心 --deploy-mode:选择本地启动驱动器程序,还是在集群中的一台工作节点机器上启动。在客户端模式下,spark-submit会将驱动器程序运行在spark-submit被调用的这台机器上。在集群模式下,驱动器程序会被传输并执行于集群的一个工作节点上。默认是本地模式。 --class:运行java或scala程序时应用的主类。 --name:应用的显示名,会显示在spark的网页用户界面中 --jars:需要上传并放到应用的classpath中的jar包的列表。如果应用依赖于少量第三方的jar包,可以把它们放到这个参数里。 --files:需要放到应用工作目录中的文件的列表。这个参数一般用来放需要分发到各节点的数据文件 --py-files:需要添加到Pythonpath中的文件的列表。其中可以包含.py、.egg以及.zip文件 --executor-memory:执行器进程使用的内存量,以字节为单位。可以使用后缀指定更大的单位,比如"512m"(512MB)或"15g"(15GB) --driver-memory:驱动器进程使用的内存量,以字节为单位。可以使用后缀指定更大的单位,比如"512m"(512MB)或"15g"(15GB) --executor-cores:限制应用使用核心个数的配置项。在yarn模式下,spark.executor.cores会为每个任务分配指定数目的核心。 --total-executor-cores:在独立模式和mesos模式下,spark.core.max设置了所有执行器进程使用的核心总数的上限。
在默认情况下,spark会使用60%的空间来存储RDD,20%存储数据混洗操作产生的数据,剩下的20%留给用户程序。