与Scala语言相比,Python有其独特的优势和广泛的应用,python调用接口,因此Spark也推出了PySpark,它在框架上提供了一个使用Python语言的接口,python接收post请求接口为数据科学家使用框架提供了方便。
众所周知,Spark框架主要由Scala语言实现,它还包含少量的Java代码。Spark面向用户的编程接口也是Scala。然而,Python在数据科学领域一直占据着重要的地位。仍然有大量的数据工程师使用各种Python数据处理和科学计算库,如numpy、熊猫、scikit-learn等。与此同时,Python的入门门槛明显低于Scala。
出于这个原因,Spark已经推出了PySpark,它在Spark框架上提供了一组Python接口,以方便数据科学家。本文主要从源代码实现层面分析了PySpark的实现原理,包括以下几个方面:
PySpark的多进程架构;
Python调用Java和Scala接口;
Python驱动程序RDD,SQL接口;
执行器端进程间通信和序列化;
熊猫UDF;
总结。
1.PySpark的多进程架构
PySpark使用多进程架构,其中Python和JVM进程是分开的。Python和JVM进程同时出现在驱动程序和执行器上。当通过spark-submit提交PySpark Python脚本时,驱动程序端会直接运行Python脚本并启动JVM从蟒蛇身上。然而,Python中调用的RDD或数据框架操作将通过Py4j被调用到Java的接口。
在遗嘱执行人方面,恰好相反。驱动程序首先启动JVM的执行器进程,python自动写论文然后在JVM中启动Python的子进程来执行Python的UDF。套接字用于进程间通信。总体架构图如下:2.Python驱动程序如何调用Java接口
如上所述,在通过spark-submit提交PySpark作业之后,驱动程序首先运行用户提交的Python脚本。然而,Spark提供的大多数API都是Scala或Java,所以有必要能够用Python调用Java接口。PySpark在这里使用Py4j作为开源库。当创建一个Python端的SparkContext对象时,JVM实际上已经启动,并且创建了一个Scala端的SparkContext对象。代码在python/pyspark/context.py中实现:
如果您有互联网问题,也可以咨询我,谢谢!如果你也想一起学习人工智能,欢迎留言交流。
完整代码
python中调用API的几种方式:
- urllib2
- httplib2
- pycurl
- requests
urllib2
import urllib2, urllib
github_url = 'https://api.github.com/user/repos'
password_manager = urllib2.HTTPPasswordMgrWithDefaultRealm()
password_manager.add_password(None, github_url, 'user', '***')
auth = urllib2.HTTPBasicAuthHandler(password_manager) # create an authentication handler
opener = urllib2.build_opener(auth) # create an opener with the authentication handler
urllib2.install_opener(opener) # install the opener...
request = urllib2.Request(github_url, urllib.urlencode({'name':'Test repo', 'description': 'Some test repository'})) # Manual encoding required
handler = urllib2.urlopen(request)
print handler.read()
2. httplib2
import urllib, httplib2
github_url = '
h = httplib2.Http(".cache")
h.add_credentials("user", "******", "
data = urllib.urlencode({"name":"test"})
resp, content = h.request(github_url, "POST", data)
print content
3. pycurl
import pycurl, json
github_url = "
user_pwd = "user:*****"
data = json.dumps({"name": "test_repo", "description": "Some test repo"})
c = pycurl.Curl()
c.setopt(pycurl.URL, github_url)
c.setopt(pycurl.USERPWD, user_pwd)
c.setopt(pycurl.POST, 1)
c.setopt(pycurl.POSTFIELDS, data)
c.perform()
4. requests
import requests, json
github_url = "
data = json.dumps({'name':'test', 'description':'some test repo'})
r = requests.post(github_url, data, auth=('user', '*****'))
print r.json
以上几种方式都可以调用API来执行动作,但requests这种方式代码最简洁,最清晰,建议采用。