sparkContext的addFile和addPyFile - 走看看

zoukankan html css js c++ java

sparkContext的addFile和addPyFile
addFile(path, recursive=False)

把文件分发到集群中每个worker节点，然后worker会把文件存放在临时目录下，spark的driver和executor可以通过pyspark.SparkFiles.get()方法来获取文件的路径，从而能够保证driver和每个worker都能正确访问到文件。因此，比较适合用于文件比较小，但是每个worker节点都需要访问的情况，文件比较大的情况下网络传送的消耗时间会比较长。

path：可以是单个本地文件，HDFS文件，或者HTTP地址，HTTPS地址，FTP URI。要在spark job中获取文件，使用pyspark.SparkFiles.get(filename)，通过指定文件名filename获取文件路径。

recursive：如果path是文件夹路径，可以设置recursive为True，然后spark就会递归的分发这个文件夹路径下的所有文件到worker节点，但是只支持HDFS文件夹路径。

>>> from pyspark import SparkFiles >>> path = os.path.join(tempdir, "test.txt") >>> sc.addFile(path) >>> res_rdd = sc.textFile(SparkFiles.get(path))

addPyFile(path)

为SparkContext上执行的所有任务增加.py或者.zip文件依赖。path可以是本地文件，HDFS文件，或者HTTP地址，HTTPS地址，FTP URI。

作者：sjdxdd
链接：https://www.jianshu.com/p/6442eec4a567
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
查看全文

相关阅读:
python模块之sys与os
Python模块之time、datetime
一行代码解决各种IE兼容问题,IE6,IE7,IE8,IE9,IE10
js闭包
 js删除局部变量
 数据库事务
 jQuery全屏滚动插件fullPage.js
jdk环境变量
 MyEclipse优化设置(最详细版本)
oracle查询性能优化

原文地址：https://www.cnblogs.com/ExMan/p/14363728.html

Copyright © 2011-2022 走看看