zoukankan      html  css  js  c++  java
  • 3 分钟的高速体验 Apache Spark SQL

    “War of the Hadoop SQL engines. And the winner is …?” 这是一个非常好的问题。只要。无论答案是什么。我们都值花一点时间找出 Spark SQL 这个 Spark 里面的家庭成员。

    原本Apache Spark SQL 官网上的代码片断(Spark官网上的样例有个通病:不提供完整代码)已经写得算比較清楚,但假设用户全然把它的代码拷贝下来,可能会碰到编译不通过的问题。另外,Spark官网上的样例还有另外一个通病:不提供test data。因此。为了大家能不走弯路、高速体验Spark SQL API。本文将展示一个改写自官网样例的小程序,以及执行结果。


    [A 程序]



    [B 測试数据]

    product.data:


    [C 运行]

    用 spark-submit 将程序提交到Yarn上运行。

    [D 运行结果]

    - Console:


    - Yarn Web Console:


    - Yarn App Log:



    [E 小结]

    - 注意须要把内部类 Product 定义在main方法外面,否则会引起编译错误

    - 直接利用Spark SQL API定义一个“表对象”(SchemaRDD)还是比较简单

    - 下一步骤可以是尝试和 HiveQL积分

    版权声明:本文博客原创文章,博客,未经同意,不得转载。

  • 相关阅读:
    NSURLConnection与NSURLSession的区别
    微信支付流程
    支付宝支付流程
    配置openfire问题(Oracle)
    id和instancetype
    数组和集合
    静态变量,静态常量以及全局变量
    内存的那些事
    Block循环引用解析
    线程的几个小问题
  • 原文地址:https://www.cnblogs.com/lcchuguo/p/4656321.html
Copyright © 2011-2022 走看看