（2）pyspark建立RDD以及读取文件成dataframe - 走看看

zoukankan html css js c++ java

（2）pyspark建立RDD以及读取文件成dataframe

别人的相关代码文件：https://github.com/bryanyang0528/hellobi/tree/master/pyspark

1、启动spark

（1）SparkSession 是 Spark SQL 的入口。

（2）通过 SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。

Builder 是 SparkSession 的构造器。通过 Builder, 可以添加各种配置。

（3）在 SparkSession 的内部，包含了SparkContext， SharedState，SessionState 几个对象。

2、建立RDD：

创建RDD的两种方法：
1 读取一个数据集(SparkContext.textFile()) : lines = sc.textFile("README.md")
2 读取一个集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))

3、从text中读取，read.text

4、从csv中读取:read.csv

5、从json中读取：read.json

7、RDD与Dataframe的转换

（1）dataframe转换成rdd：

法一：datardd = dataDataframe.rdd

法二：datardd = sc.parallelize(_)

（2）rdd转换成dataframe：

dataDataFrame = spark.createDataFrame(datardd)

查看全文

相关阅读:
Ansible 和 Playbook 暂存
 nginx 和keepalived的使用
 关于群晖 docker 百度云盘下载的使用心得
 文件夹共享
 转:轻松把玩HttpClient之封装HttpClient工具类(一)（现有网上分享中的最强大的工具类）
Maven学习笔记一
 转:Maven常用命令
 转:MySQL下载安装、配置与使用（win7x64）
转:SQL SERVER 2014 安装图解（含 SQL SERVER 2014 安装程序共享）
转:java 解析excel，带合并单元的excel

原文地址：https://www.cnblogs.com/Lee-yl/p/9759657.html

Copyright © 2011-2022 走看看