zoukankan      html  css  js  c++  java
  • (2)pyspark建立RDD以及读取文件成dataframe

    别人的相关代码文件:https://github.com/bryanyang0528/hellobi/tree/master/pyspark

    1、启动spark

    (1)SparkSession 是 Spark SQL 的入口。

    (2)通过 SparkSession.builder 来创建一个 SparkSession 的实例,并通过 stop 函数来停止 SparkSession。

    Builder 是 SparkSession 的构造器。 通过 Builder, 可以添加各种配置。

    (3)在 SparkSession 的内部, 包含了SparkContext, SharedState,SessionState 几个对象。

    2、建立RDD:

    创建RDD的两种方法:
    1 读取一个数据集(SparkContext.textFile()) : lines = sc.textFile("README.md")
    2 读取一个集合(SparkContext.parallelize()) : lines = sc.paralelize(List("pandas","i like pandas"))


    3、从text中读取,read.text

    4、从csv中读取:read.csv

    5、从json中读取:read.json


    7、RDD与Dataframe的转换 

    (1)dataframe转换成rdd:

    法一:datardd = dataDataframe.rdd

    法二:datardd = sc.parallelize(_)

    (2)rdd转换成dataframe:

    dataDataFrame = spark.createDataFrame(datardd)

  • 相关阅读:
    函数节流和防抖
    前端优化
    webpack模块
    link和@import的区别
    BFC--CSS
    javaoop_破解jdbc
    javaoop反射
    java-oop集合与泛型
    java中几个小遗漏
    java异常处理和日志管理
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9759657.html
Copyright © 2011-2022 走看看