zoukankan      html  css  js  c++  java
  • Spark学习之数据读取与保存(4)

    Spark学习之数据读取与保存(4)

    1. 文件格式

    Spark对很多种文件格式的读取和保存方式都很简单。
    如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。通过扩展名进行处理。
    

    2. 读取/保存文本文件

    Python中读取一个文本文件
    
        input = sc.textfile("file:///home/holen/repos/spark/README.md")
        Scala中读取一个文本文件
        val input = sc.textFile("file:///home/holen/repos/spark/README.md")
        Java中读取一个文本文件
        JavaRDD<String> input = sc.textFile("file:///home/holen/repos/spark/README.md")
    saveAsTextFile()方法用了保存为文本文件
    

    3. 读取/保存JSON文件

    Python中读取JSON文件
    
        import json
        data = input.map(lambda x: json.loads(x))
    
        Python中保存为JSON文件
        (data.filter(lambda x: x["lovesPandas"]).map(lambda x: json.dumps(x)))
            .saveAsTextFile(outputFile)

    4. Spark SQL中的结构化数据

    结构化数据指的是有结构信息的数据————也就是所有的数据记录都有具有一致字段结构的集合。
    在各种情况下,我们把一条SQL查询给Spark SQL,让它对一个数据源执行查询,然后得到由Row对象组成的RDD,每个Row对象表示一条记录。
    
  • 相关阅读:
    课堂作业之公文流转
    统计字符出现频率(java)
    课堂测试第八周
    HTML学习笔记——语法+骨架
    HTTP协议
    MVC架构模式概述
    CodeIgniter框架——CI中视图路径问题
    CodeIgniter框架——CI组件间信息流走向
    CodeIgniter框架——数据库类(配置+快速入门)
    chm文件无法阅读
  • 原文地址:https://www.cnblogs.com/lanzhi/p/6467801.html
Copyright © 2011-2022 走看看