zoukankan      html  css  js  c++  java
  • (2)pyspark建立RDD以及读取文件成dataframe

    别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark

    1、启动spark

    (1)SparkSession 是 Spark SQL 的入口。

    (2)通过 SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。

    Builder 是 SparkSession 的构造器。 通过 Builder, 可以添加各种配置。

    (3)在 SparkSession 的内部, 包含了SparkContext, SharedState,SessionState 几个对象。

    2、建立RDD:

    创建RDD的两种方法:
    1 读取一个数据集(SparkContext.textFile()) : lines = sc.textFile("README.md")
    2 读取一个集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))


    3、从text中读取,read.text

    4、从csv中读取:read.csv

    5、从json中读取:read.json


    7、RDD与Dataframe的转换 

    (1)dataframe转换成rdd:

    法一:datardd = dataDataframe.rdd

    法二:datardd = sc.parallelize(_)

    (2)rdd转换成dataframe:

    dataDataFrame = spark.createDataFrame(datardd)

  • 相关阅读:
    fileupload直接获得
    ajax分页
    jquery.cookie.js
    DataTable分页
    C#字串与Unicode互相转换方法
    Linq测试
    滚动条加载数据
    创建.PDF文件【1】
    小问题【6】
    小问题【4】
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9759657.html
Copyright © 2011-2022 走看看