zoukankan      html  css  js  c++  java
  • Spark2 文件处理和jar包执行

    上传数据文件

    mkdir -p data/ml/

    hadoop fs -mkdir -p /datafile/wangxiao/

    hadoop fs -ls /

    hadoop fs -put /home/wangxiao/data/ml/Affairs.txt /datafile/wangxiao/

    hadoop fs -ls -R /datafile

    hdfs://ns1/datafile/wangxiao/Affairs.txt

    执行jar包  

      mkdir -p jar/

      $SPARK_HOME/bin/spark-submit  

      --class "ML2"  

      --master local[2]  

      /home/wangxiao/jar/test.jar

    下载数据文件到本地

    hadoop fs -get  /datafile/wangxiao/Affairs.txt  /home/wangxiao/data/ml/

    删除HDFS上的文件

    hadoop fs -rm -r -f /datafile/wangxiao/data*

    hadoop fs -cat /user/wangxiao/bfeed.txt  输出文本内容

    hadoop fs –mkdir //user/wangxiao/dir/ 在指定位置创建目录。
       
    hadoop fs -du -h /user/wangxiao/ 统计目录下文件大小

    hadoop fs -count -q /user/wangxiao/ 统计文件(夹)数量

    命名空间的quota(限制文件数) 剩余的命名空间quota 物理空间的quota (限制空间占用大小) 剩余的物理空间 目录数统计 文件数统计 目录逻辑空间总大小 路径

    逻辑空间,即分布式文件系统上真正的文件大小
    物理空间,即存在分布式文件系统上该文件实际占用的空间

    分布式文件系统为了保证文件的可靠性,往往会保存多个备份(一般是3份),
    只要备份数不为1的情况下,一般物理空间会是逻辑空间的几倍。

    HDFS物理空间=逻辑空间*block备份数

  • 相关阅读:
    rsync的man手册(未完成)
    rsync基础
    命令:mktemp
    命令:install
    [Abp vNext 源码分析]
    异常吞噬问题一则
    使用 Polly 实现复杂策略(超时重试)
    在 DotNetty 中实现同步请求
    使用 C# 实现 CJ-T188 水表协议和 DL-T645 电表协议的解析与编码
    DevExpress 使用 GridControl 时,数据源无法立即更新的问题
  • 原文地址:https://www.cnblogs.com/wwxbi/p/5965131.html
Copyright © 2011-2022 走看看