zoukankan      html  css  js  c++  java
  • 寒假7

    今天学习SparkSQL方面的知识

    该模型允许你使用SQL或者DataFrame或DataSet进行关系型查询 Spark SQL划分为四个子项目:

    • Catalyst (sql/catalyst) - 解析关系操作算子和表达式的语法树的实现框架
    • Execution (sql/core) - 代表planner / execution engine 用来转化Catalyst的逻辑查询计划为park RDDs. 该部件也允许用户将 RDDs and Parquet files转化为表,来进行查询分析.
    • Hive Support (sql/hive) - 包含了一个SqlContext扩展HiveContext,允许使用 HiveQL 的子集and 允许使用 * Hive SerDes去访问hive metastore的数据. 也可以使用Hive 的UDFs, UDAFs, and UDTFs来进行查询分析.
    • HiveServer and CLI support (sql/hive-thriftserver) - Includes support for the SQL CLI (bin/spark-sql) and a HiveServer2 (for JDBC/ODBC) compatible server.
    • dataFrame进一步抽象了数据集

    练习了加载数据使用DataFrame

    还有将RDD转化为DataFrame

  • 相关阅读:
    Java基本数据类型之间转换
    python 元组tuple
    python 列表List
    python 字符串
    python for循环
    python break/continue
    python while循环
    python条件判断if/else
    python运算符
    python变量
  • 原文地址:https://www.cnblogs.com/yang-qiu/p/12274840.html
Copyright © 2011-2022 走看看