《Hadoop权威指南第4版》

zoukankan html css js c++ java

《Hadoop权威指南第4版》
3.1 HDFS的设计概念
- HDFS以流式数据访问模式来存储超大的文件
- HDFS延时较高, HBASE 到可以是较好的选择.
- 大量的小文件, namenode(命名结点/空间) 将文件系统的元数据存储在内存中,每个大概占150Bytes, 上百万/千万时需要考虑物理机的内存大小
- HDFS只支持单用户在 " 文件末尾 " 的追加的方式写入数据
3.2 HDFS 的概念
- 数据块: 数倍于磁盘的数据块，通常MapReduce中的map任务一次只处理一个HDFS块中的数据, 也不会过大(涉及到集群)
- namenode 和 datanode
  
  namenode为管理结点，文件系统的命名空间，保存整个文件系统树的所有文件信息，记录每个文件在各个结点中的存储信息（文件和数据块的互相引用关系）
  
  datanode为数据结点,
- 客户端Client，通过namenode和datanode交互来访问整个文件系统
- 块缓存，访问频繁的块会被显式的加载到DataNode的内存中
- 联邦HDFS，适用于超大集群，内存会成为瓶颈，联邦的HDFS的namenode允许进行扩展，每个node只管理一部分文件，如不同的目录对应不同的node
- HDFS的高可用性
  
  namenode存在单点故障，Hadoop2 增加了 “活动-备份” 的nameNode模式
3.3 命令行模式
- 输入hadoop fs -help 获取命令大全
  示例新建文件夹/查询/查询根目录下的全部文件夹及文件
```
    [root@localhost hadoop-2.7.2]# bin/hdfs dfs -mkdir -p /user/root/input             # 这种方式也可以
    [root@localhost hadoop-2.7.2]# hadoop fs -mkdir books

    [root@localhost hadoop-2.7.2]# hadoop fs -ls .
    Found 2 items
    drwxr-xr-x   - root supergroup          0 2020-01-02 15:55 books
    drwxr-xr-x   - root supergroup          0 2020-01-02 15:46 input

[root@localhost hadoop-2.7.2]# hadoop fs -ls file:///
Found 22 items
dr-xr-xr-x   - root root      53248 2019-04-09 21:25 file:///bin
dr-xr-xr-x   - root root       4096 2020-01-02 10:14 file:///boot
drwxr-xr-x   - root root       3300 2020-01-02 10:13 file:///dev
drwxr-xr-x   - root root       8192 2020-01-02 10:50 file:///etc
drwxr-xr-x   - root root         35 2020-01-02 10:20 file:///home
dr-xr-xr-x   - root root       4096 2019-04-09 21:24 file:///lib
.....
```
创建input文件夹, 上传两个文件
```
 hadoop fs -mkdir /input
hdfs dfs -put ~/baize/a.txt /input  
hdfs dfs -put ~/baize/a.txt /input/b.txt
```
查询，成功创建 http://192.168.147.132:50070/explorer.html#/

执行一次MapReduce任务 单词统计
```
 hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /input /output      
```
结果在/output中查看
http://192.168.147.132:50070/explorer.html#/output
进行download 即可.

下面展示命令行的操作:
```
[root@localhost hadoop-2.7.2]# hdfs dfs -ls /output
Found 2 items
-rw-r--r--   1 root supergroup          0 2020-01-02 20:04 /output/_SUCCESS
-rw-r--r--   1 root supergroup         16 2020-01-02 20:04 /output/part-r-00000
[root@localhost hadoop-2.7.2]# hdfs dfs -cat /output/part-r-00000
Hello   2
World   2
[root@localhost hadoop-2.7.2]# 
```
3.4 hadoop的文件系统
- hdfs只是hadoop文件系统的一种实现
- 接口（hadoop以Java API的方式来提供接口访问）
  
  文件系统的命令解释器就是Java来书写的, 它使用Java的FileSystem类来提供文件系统的操作
  
  HTTP 方式, 缓慢, 通过HDFS 代理来完成RPC请求
  
  C语言
  
  NFS
  
  FUSE
3.5 Java接口
- 从hadoop的URL直接读取数据
  
  设置URL 使用Fs的流处理器工厂模式,
  static {
  URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
  }
  
  使用java.net.URL对象打开数据流, 从中读取数据
  
  InputStream in = new URL("hdfs://host/path"). openStream() ;
  
  使用后进行关闭, IOUtils.closeStream()
- 使用通用的File System的文件系统API来读取数据
  
  seek(index) ,将流的指针指向指定的index 的字符位置
  
  read（position， offset），从一个指定的偏移量出读取指定的文件的一部分
  
  create（），写入文件，自动创建父类，选择不同的模式；可以指定create（inputStream）
  
  append（path），追加文件内容
  
  mkdirs（Path），创建目录
- 3.5.5 创建文件系统
  
  文件的元数据 FileStatus类，封装了文件系统中文件和目录的元数据 getFileStatus()
  
  列出文件，查找一个文件或者目录相关的信息很实用；listStatus（）
  
  Hadoop支持的通配符与Unix bash shell支持的相同，如 “path。toString（）.match(regex)”
  
  删除数据, delete()
- 3.6 数据流 TODO
  
  剖析文件读取
  
  剖析文件写入
  
  一致模型
- 3.7 通过distcp 并行复制 TODO
查看全文

相关阅读:
鸟哥的linux私房菜
 jquery mobile 移动web(2)
jquery mobile 移动web(1)
HTML5规范的本地存储
 初探css3
移动设备HTML5页面布局
 jquery 操作ajax 相关方法
 jQuery 效果使用
 jquery 表单事件
 jquery鼠标事件

原文地址：https://www.cnblogs.com/zhazhaacmer/p/12133377.html

《Hadoop权威指南 第4版》

3.1 HDFS的设计概念

3.2 HDFS 的概念

3.3 命令行模式

3.4 hadoop的文件系统

3.5 Java接口

3.7 通过distcp 并行复制 TODO

《Hadoop权威指南第4版》