zoukankan html css js c++ java

Spark SQL读parquet文件及保存

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.hive._

/**
  * Created by soyo on 17-10-12.
  */
case class Persons(name:String,age:Int)
case class Record(key: Int, value: String)

object rdd_to_dataframe_parquet {
  val warehouseLocation = "file:${system:user.dir}/spark-warehouse"
          val spark=SparkSession.builder().config("spark.sql.warehouse.dir",warehouseLocation).enableHiveSupport().getOrCreate()
          import spark.implicits._
  def main(args: Array[String]): Unit = {
        val df =spark.sparkContext.textFile("file:///home/soyo/桌面/spark编程测试数据/people.txt")
           .map(_.split(",")).map(x=>Person(x(0),x(1).trim.toInt)).toDF()
             df.write.parquet("file:///home/soyo/桌面/spark编程测试数据/people.parquet")
     val parquetFile=spark.read.parquet("file:///home/soyo/桌面/spark编程测试数据/people.parquet")
        parquetFile.createOrReplaceTempView("people")
      val result=spark.sql("select * from people")
    result.show()
spark.stop()

补充：需要多数据源整合查询时：

val data=result1.union(result2)

data.createOrReplaceTempView("data") 之后执行后续查询

查看全文

相关阅读:
Mysql Explain 详解
 linux常用命令笔记
 chrome的全局搜索快捷键
 蒋介石如何能够强大的北洋军阀对战?（北洋军阀一盘散沙，以添油战术应对，所以完全失败；北伐军主次应对得到，后期实力大增）
千万大军剑拔弩张 1945年的美苏两军谁是霸主?（苏联陆军强大，但国力远远不是美国的对手。微信号：熊熊点兵）
C/C++语言中闭包的探究及比较
 HTTP RFC7230
Oracle
c#与oracle数据库连接池
 net平台下连接池

原文地址：https://www.cnblogs.com/soyo/p/7656254.html