spark dirver本质是一个spark集群的驱动程序,你要调用spark集群的计算功能,必须要通过它!
from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My test App") sc = SparkContext(conf=conf) lines = sc.textFile("/tmp/tmp.txt") print lines.count() print lines.first()
然后,在tmp下放置一个文件tmp.txt,运行:
./bin/spark-submit my_example/test.py
即可看到效果!
注意:从根本上说,spark sumbit也是驱动程序,不过是将上述脚本提交到spark集群上去执行罢了!