zoukankan html css js c++ java

spark-sql分组去重总数统计uv

SparkConf sparkConf = new SparkConf();
        sparkConf
                .setAppName("Internal_Func")
                .setMaster("local");

        JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);
        SQLContext sqlContext = new SQLContext(javaSparkContext);

        List<String> list = new ArrayList<String>();
        list.add("1,1");
        list.add("2,11");
        list.add("2,111");
        list.add("2,111");
        list.add("3,1111");
        list.add("3,11111");

        JavaRDD<String> rdd_str = javaSparkContext.parallelize(list, 5);

        JavaRDD<Row> rdd_row = rdd_str.map(new Function<String, Row>() {
            @Override
            public Row call(String v1) throws Exception {
                String ary[] = v1.split(",");
                return RowFactory.create(ary[0], Long.parseLong(ary[1]));
            }
        });

        List<StructField> fieldList = new ArrayList<StructField>();
        fieldList.add(DataTypes.createStructField("name", DataTypes.StringType, true));
        fieldList.add(DataTypes.createStructField("sc", DataTypes.LongType, true));
        StructType tmp = DataTypes.createStructType(fieldList);

        DataFrame df = sqlContext.createDataFrame(rdd_row, tmp);
        df.registerTempTable("tmp_sc");

        DataFrame df_agg = sqlContext.sql("select name,count(distinct(sc)) from tmp_sc group by name");//去重后分组求和统计

        df_agg.show();

查看全文

相关阅读:
Windows下sc create命令行注册服务
 FluentValidation .NET 验证组件
 Linux系统下安装Redis
mysql的sql_mode设置
 Linux系统下安装rocketmq
Windows系统中Nacos的下载安装及使用
 配置Mysql允许远程访问
 Sqlserver 获取每周的数据
 如何在Mac OS X上构建ClickHouse
Mac 设置 JAVA_HOME 环境变量

原文地址：https://www.cnblogs.com/zzq-include/p/8747107.html