zoukankan      html  css  js  c++  java
  • hadoop archive的使用

    hadoop archive的使用

    • 产生背景:hdfs架构设计不利于小文件存储 文件不管多小 都需要元数据描述记录 如果集群小文件过多

      可能磁盘使用情况很低 但是内存使用确很高 俗称 小文件吃内存

    • 档案的功能:通过mr程序 把多个小文件 合并成一个档案文件
    • archive的使用
      • 档案的创建
        hadoop archive -archiveName test.har -p /input /outputdir

        档案建立成功 为了优化小文件吃内存的情况 可以把小文件删除
        hadoop fs -rm -r /input
      • 档案的查看
        查看建立档案之后的样子
        hadoop fs -ls hdfs://node-1:8020/outputdir/test.har

        查看建立档案之前的样子
        hadoop fs -ls har://hdfs-node-1:8020/outputdir/test.har
        可以查询出该档案是由哪些小文件合并而来
      • 档案的提取
        串行提取
        hadoop fs -cp har:///outputdir/test.har hdfs://node-1:8020/input

        hadoop distcp har:///outputdir/test.har hdfs://node-1:8020/input



  • 相关阅读:
    spring的原理
    角色&权限
    Redis在springboot项目的使用
    项目接口的设计思想
    springboot项目注册接口
    Redis
    cookie&session
    python enumerate()
    原来,一直没有完全理解range()函数
    python zip()和zip(*)方法
  • 原文地址:https://www.cnblogs.com/TiePiHeTao/p/2e6b3d195550bb95c733891ca6b437d7.html
Copyright © 2011-2022 走看看