zoukankan      html  css  js  c++  java
  • 041 SparkSql的回顾与复习

      在前面学完了SparkCore后,又学了SparkSQL,在继续加深学习之前,一定的复习还是很重要的。这里大体写一下,加深自己对SparlSQL的理解。

    1.SparkSQL

      首先是SaprkSQL与HIve的继承

      然后是ThriftServer服务(JDBC/ODBC)

      SparlSQL开发语言:

        HQL:表需要存在(可以是HIve表存在,也可以是临时表存在--这样需要DateFrame注册)

        DSL:DateFrame相关的API(select,groupby。。。)

      DateFrame:SparkSQL的抽象

        RDD+Schema

        内部是一个逻辑计划

        编程模式:read与writer编程,这是一个链式编程

      SparkSQL默认支持的数据源

        hive

        rdbms

        parquet

        json

      多数据源的数据可以进行join操作

        注册成两张临时表,然后就可以进行join了

      可以替换Sqoop的工作,做数据同步的事情

        hive,hdfs(text,parquet,avro,orc),hbase,RDBMS,redis,MongoDB

      

  • 相关阅读:
    importToMbtiles
    http-server服务跨域设置
    Leaflet 测试加载高德地图
    矢量切片
    zigzag方式编码
    CentOS7安装docker
    CentOS7安装NodeJS
    CentOS7上Python3.5安装
    JDK8下maven使用maven-javadoc-plugin插件报错
    Ubuntu16.10上安装NodeJS6.9.2
  • 原文地址:https://www.cnblogs.com/juncaoit/p/9357544.html
Copyright © 2011-2022 走看看