zoukankan      html  css  js  c++  java
  • spark教程(10)-sparkSQL

    sparkSQL 的由来

    我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive;

    hive 是把类 sql 的语句转换成 mapreduce,解决了开发难的问题,但是 hive 的底层还是 mapreduce,仍然是慢;

    spark 也看到了 hive 的优势,以 hive 为中心的一套框架 shark 营运而生,它是 spark 的前身,h 就是 hive 的意思;

    但是 为了 提高 shark 的效率,spark 自己开发了一套算法,替代了之前 hive 的思路,这套算法就是 sparkSQL

    sparkSQL 简介

    sparkSQL 是 spark 专门处理结构化数据的一个模块,也就是像数据表一样的数据,处理方式就是像 sql 一样;

    换句话说,sparkSQL 使用 sql 的方式代替了之前数据处理的方式。

    sparkSQL 提供了两个编程抽象:DataFrame 和 DataSet,起到了分布式 SQL 查询引擎的作用;

    sparkSQL 把 sql 语句 和 dataFrame、dataSet 转换成了 RDD,执行效率非常快;

    也就是说 dataFrame、dataSet 的底层仍然 是 RDD,并且可以互相转换

    sparkSQL 的特点

    官方解释

    易整合

    兼容 hive

    统一的数据访问方式:用同样的方式读取各类文件

    标准的数据库连接:可以通过 JDBC 或者 ODBC 连接标准数据库

    后面会详细解释。

    sparkSQL vs DB Hive

  • 相关阅读:
    小程序导出excel
    小程序搜索框加icon
    微信小程序全局传参 app传参
    长亭安服面经
    uni关于生成支付宝小程序问题
    Echarts图表使用
    js获取url路径斜杠分开
    git---更新gitignore文件,使之生效
    常见Cpu 100%的原因
    OFFICE 2019 INSTRUCTIONS
  • 原文地址:https://www.cnblogs.com/yanshw/p/11698425.html
Copyright © 2011-2022 走看看