zoukankan      html  css  js  c++  java
  • spark parquet 从hdfs 上读 和写 scala 版本

    import org.apache.spark.SparkConf
    import org.apache.spark.SparkContext
    import org.apache.spark.sql.SQLContext
    import org.apache.spark.sql.DataFrame
    import org.apache.spark.sql.SaveMode
    
    
    object GenericLoadSave {
      
      def main(args: Array[String]): Unit = {
        val conf = new SparkConf()
            .setAppName("GenericLoadSave")
            .setMaster("local")
        val sc = new SparkContext(conf)
        val sqlContext = new SQLContext(sc)
      
        //读取一个parquet文件
        val usersDF = sqlContext.read.format("parquet").load("hdfs://hadoop1:9000/input/users.parquet")
    
        usersDF.write.mode(SaveMode.Overwrite).format("parquet").save("hdfs://hadoop1:9000/output/namesAndFavColors_scala")  
        
        val tDF = sqlContext.read.format("parquet").load("hdfs://hadoop1:9000/output/namesAndFavColors_scala")
        tDF.show()
        
      }
    }

  • 相关阅读:
    JVM系列三:JVM参数设置、分析
    JVM系列二:GC策略&内存申请、对象衰老
    HotSpot VM GC 的种类
    2.静态库和动态库
    1.GCC编译过程
    6.树
    5.队列
    4.栈
    3.线性表
    2.算法
  • 原文地址:https://www.cnblogs.com/TendToBigData/p/10501299.html
Copyright © 2011-2022 走看看