zoukankan      html  css  js  c++  java
  • spark textFile读取多个文件

    1.spark textFile读取File

    1.1 简单读取文件

    val spark = SparkSession.builder()
        .appName("demo")
        .master("local[3]")
        .getOrCreate()
    
    // 读取hdfs文件目录
    spark.sparkContext.textFile("/user/data")
    spark.sparkContext.textFile("hdfs://10.252.51.58:8088/user/data")
    // 读取本地目录
    spark.sparkContext.textFile("file://user/data")

    1.2 正则模式读取文件

    val spark = SparkSession.builder()
        .appName("demo")
        .master("local[3]")
        .getOrCreate()
    
    // 读取hdfs文件目录
    spark.sparkContext.textFile("/user/data/201908/0[1-9]/*")

    2.spark textFile读取多个File

    2.1 将多个文件变成一个 list 作为参数

    正确写法:sc.TextFile( filename1 + "," + filename2 + "," + filename3)

    val spark = SparkSession.builder()
        .appName("demo")
        .master("local[3]")
        .getOrCreate()
    
    val fileList = Array("/user/data/source1","/user/data/source2","/user/data/source3")
    // 读取hdfs文件目录
    spark.sparkContext.textFile(fileList.mkString(","))

    2.2 使用 union 连接

    val spark = SparkSession.builder()
        .appName("demo")
        .master("local[3]")
        .getOrCreate()
    
    val fileList = Array("/user/data/source1","/user/data/source2","/user/data/source3")
    //array[RDD]
    val fileRDD:Array[RDD[String]] = fileList.map(spark.sparkContext.textFile(_)
    
    spark.sparkContext.union(fileRDD)
  • 相关阅读:
    [hdu2196]Computer树的直径
    [poj2342]Anniversary party树形dp入门
    链式前向星模板
    LintCode-50.数组剔除元素后的乘积
    Markdown的基本语法
    LintCode-8.旋转字符串
    LintCode-1.A + B 问题
    LintCode-61.搜索区间
    LintCode-88.最近公共祖先
    LintCode-54.转换字符串到整数
  • 原文地址:https://www.cnblogs.com/yyy-blog/p/11369389.html
Copyright © 2011-2022 走看看