zoukankan      html  css  js  c++  java
  • 3 分钟的高速体验 Apache Spark SQL

    “War of the Hadoop SQL engines. And the winner is …?” 这是一个非常好的问题。只要。无论答案是什么。我们都值花一点时间找出 Spark SQL 这个 Spark 里面的家庭成员。

    原本Apache Spark SQL 官网上的代码片断(Spark官网上的样例有个通病:不提供完整代码)已经写得算比較清楚,但假设用户全然把它的代码拷贝下来,可能会碰到编译不通过的问题。另外,Spark官网上的样例还有另外一个通病:不提供test data。因此。为了大家能不走弯路、高速体验Spark SQL API。本文将展示一个改写自官网样例的小程序,以及执行结果。


    [A 程序]



    [B 測试数据]

    product.data:


    [C 运行]

    用 spark-submit 将程序提交到Yarn上运行。

    [D 运行结果]

    - Console:


    - Yarn Web Console:


    - Yarn App Log:



    [E 小结]

    - 注意须要把内部类 Product 定义在main方法外面,否则会引起编译错误

    - 直接利用Spark SQL API定义一个“表对象”(SchemaRDD)还是比较简单

    - 下一步骤可以是尝试和 HiveQL积分

    版权声明:本文博客原创文章,博客,未经同意,不得转载。

  • 相关阅读:
    MSXML 解析XML文件
    内存泄露
    TCHAR CHAR LPTSTR LPCTSTR
    union过代理存根
    jquery placeholder
    SASS 编译后去掉缓存文件和map文件
    js冒泡排序
    android 下滤镜效果的实现
    ViewPagger介绍
    android下实现对wifi连接的监听
  • 原文地址:https://www.cnblogs.com/lcchuguo/p/4656321.html
Copyright © 2011-2022 走看看