zoukankan html css js c++ java

spark parquet 从hdfs 上读和写

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.SaveMode;

/**
 * @author Administrator
 *
 */
public class GenericLoadSave {

	public static void main(String[] args) {
		SparkConf conf = new SparkConf() 
				.setAppName("GenericLoadSave")
				.setMaster("local");
		JavaSparkContext sc = new JavaSparkContext(conf);
		SQLContext sqlContext = new SQLContext(sc);
	//parquet 带表结构 ？？？
		DataFrame usersDF = sqlContext.read().load(	"hdfs://hadoop1:9000/input/users.parquet");
		//没有指定format  就是写入到磁盘的数据格式     默认是parquet
		usersDF.select("name", "favorite_color").write().mode(SaveMode.Overwrite).save("hdfs://hadoop1:9000/output/namesAndFavColors_scala");   
		
		DataFrame pDF = sqlContext.read().parquet("hdfs://hadoop1:9000/output/namesAndFavColors_scala");
		pDF.show();
	}
	
}

查看全文

相关阅读:
Kibana查询说明
 windows下安装python 且安装pip
pycharm编辑器，各种设置及配置修改
 用python输出未来时间，递增
 window 下python2.7与python3.5两版本共存设置
 python 运算符
 python 运算及注释
 js 实现动态的图片时钟
 js table的笔记，实现添加 td，实现搜索功能
 js实现图片无缝连接

原文地址：https://www.cnblogs.com/TendToBigData/p/10501300.html

spark parquet 从hdfs 上读 和写

spark parquet 从hdfs 上读和写