zoukankan      html  css  js  c++  java
  • 039 DataFrame的理解

    1.构成

      由RDD+Schema构成
        RDD: DataFrame中的数据 ===> df.rdd
        Schema: RDD中数据的结构 ===> df.schema

        df是dataFrame。

    2.官网

      

      

    3.DataFrame的本质  

      内部实质上就是一个逻辑执行计划
      Catalyst模块负责逻辑执行计划
      逻辑计划 -> 分析逻辑计划 -> 优化逻辑计划 -> 产生物理计划(多个) -> 判断物理计划的执行成本 -> 选择一个最优物理计划SparkCore代码生成 -> SparkCore代码执行
      题外:Spark2.x之前的版本不支持逻辑计划产生的修改
      Spark2.x支持用户自定义HQL逻辑计划产生

       

    4.DataFrame的数据保存

      第一种: 将Dataframe转换为RDD,RDD数据保存
      第二种: 直接通过DataFrame的write属性将数据写出(有限制,必须有定义类实现,默认情况:SparkSQL只支持parquet、json、jdbc...)

    5.创建DataFrame

      val df = sqlContext.#   :这个是使用各种api,例如sql,然后返回dataFrame。
      val df = sqlContext.read.#

  • 相关阅读:
    多项式A除以B (25分)
    numpy随笔
    numpy中文件读取操作np.loadtxt(),np.savetxt()的使用
    Plug It In
    C. Uncle Bogdan and Country Happiness
    获得系统版本号
    C# Winform无边框窗口拖动
    numericUpDown隐藏上下箭头
    C# FTP下载图片转为Base64
    C# 获取版本号
  • 原文地址:https://www.cnblogs.com/juncaoit/p/6776458.html
Copyright © 2011-2022 走看看