Hadoop权威指南:HDFS-Hadoop存档

zoukankan html css js c++ java

Hadoop权威指南:HDFS-Hadoop存档
Hadoop权威指南:HDFS-Hadoop存档
目录
Hadoop权威指南:HDFS-Hadoop存档
使用Hadoop存档工具
不足
- 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中
- Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件存入HDFS块,在减少内存使用的同时,允许对文件进行透明地访问
- Hadoop存档文件可以用作MapReduce的输入
使用Hadoop存档工具
- Hadoop存档是通过archive工具根据一组文件创建而来的,该存档工具运行一个MapReduce作业来并行处理所有的输入文件
- 使用archive
hadoop archive -archiveName files.har /my/files /my
- 第一个选项是存档文件的名称,这里是第一个参数 file.har
- 第二个参数是需要存档的文件
- 第三个参数是HAR文件的输出目录
- 列出HAR文件中的文件
hadoop fs -ls /my/files.har
- 递归列出HAR文件中的文件
  
  hadoop fs -lsr /my/files.har
- 其他文件系统中引用HAR文件,则需要使用不同的URI路径格式,示例如下
```
  hadoop fs -lsr har:///my/files.har/my/files/dir
  hadoop fs -lsr har://hdfs-localhost:8020/my/files.har/my/files/dir
```
第二种格式仍以har方案标示一个HAR文件系统,但是用hdfs指定基础文件系统方案的权限
- 要删除HAR文件,需要使用递归格式进行删除,因为对于基础文件系统来说,HAR文件是一个目录
  
  hadoop fs -rmr /my/files.har
不足
- 新建一个存档文件会创建原始文件的一个副本
- 一旦创建,不能修改
- InputFormat不知道文件已经存档
查看全文

相关阅读:
UEditor 在 Layer 模态框中无法使用问题
 mysql FORMAT() 格式化后的数字运算出错
 dede 对单个字段编辑
 SW线路中串联1K电阻的作用
 示波器如何用示波器正确测量电源纹波
 Excel工作表忘记密码如何破解？
excel小技巧
 CPU核心电压与VID电压
 电容有什么作用？为什么cpu电源引脚都并联一个电容？
APU的Vsense引脚的作用

原文地址：https://www.cnblogs.com/bovenson/p/5730768.html

Hadoop权威指南:HDFS-Hadoop存档

Hadoop权威指南:HDFS-Hadoop存档

使用Hadoop存档工具

不足