zoukankan      html  css  js  c++  java
  • Spark读取文件

    spark默认读取的是hdfs上的文件。

    如果读取本地文件,则需要加file:///usr/local/spark/README.md。 (测试时候发现,本地文件必须在spark的安装路径内部或者平行)

    读取hdfs文件, 可以这样指定路径 hdfs://ns1/tmp/test.txt。

    如果不指定任何前缀,则使用hdfs的默认路径/user/data/

    启动spark-shell:

    由于已经在spark-defaults.conf中指定了spark.master,所以启动时默认以standalone模式加载

    1. 读取本地文件: 

    spark安装路径下/usr/local/spark/README.md

    然鹅使用其他路径 /home/hadoop/king/spark/wordcount/data/test.txt

    2. 读取hdfs文件

    hdfs://ns1/tmp/test.txt

    3. 不加任何前缀

    默认识别的hadoop用户的目录,将刚才的test.txt拷贝到目录:hdfs://ns1/user/hadoop/ 

     

    再次读取:

    在实际的使用中推荐使用第二种方式处理数据。

  • 相关阅读:
    CSS同时选择器
    create-react-app之proxy
    mysql limit语句
    给tbody加垂直滚动条的具体思路
    MySql数据类型范围
    block、inline、inline-block
    javascript sourcemap
    session of express
    React中innerHTML的坑
    box-sizing
  • 原文地址:https://www.cnblogs.com/30go/p/8482854.html
Copyright © 2011-2022 走看看