hadoop 日常使用记录

zoukankan html css js c++ java

hadoop 日常使用记录
1.Hadoop分布式文件系统（HDFS）
- HDFS基于GFS（Google File System），能够存储海量的数据，并且使用分布式网络客户端透明访问。
- HDFS中将文件拆分成特定大小的块结构（block-structured filesystem），一个文件的不同块存储在不同的节点中。
- 为了防止数据丢失，HDFS默认将一个块重复保存3份。
- HDFS的架构主要包括两个部分：NameNode和DataNode。
- NameNode保存整个文件系统的基础信息，例如：文件名，文件权限，文件每个块的存储位置等。为了能够快速访问获取信息，NameNode将这些基础信息保存在内存中。
- DataNodes是那些保存块（blocks）的机器，通常由大容量存储空间的廉价机器充当。
hadoop中常用文件操作命令
- hdfs dfs -ls / (列出HDFS根目录的文件信息)
- hdfs dfs -mkdir /user （在HDFS中创建目录）
- hdfs dfs -put INPUT_PATH OUTPUT_PATH
- hdfs dfs -cat
- hdfs dfs -get
- hadoop fs，hadoop dfs和hdfs dfs命令的区别：fs既能操作本地文件又能操作分布式文件系统，而dfs只能操作HDFS分布式文件系统。hadoop dfs已经废弃
2.MapReduce with Python
- MapReduce是一种编程模型，用它来将大量的数据计算任务划分成并行的独立的小任务。
- MapReduce框架主要包括3个阶段：map, shuffle and sort, and reduce（映射，混合和排序，规约）
- Map阶段：maper函数分别处理系列键值对，产生零个或多个新的键值对。
- shuffle and sort：利用基于哈希的分割器给每确定每个键值对对于的reducer，并且进行排序。
- Reduce阶段：利用reduce函数，将多个map阶段输出的键值对按照键对值进行合并，然后输出新的键值对。
- Hadoop streaming：maper和reducer都是按照一行一行的顺序从标准输入（stdin）读取数据，然后进行标准输出，maper的输出值为多个键值对，每个键值对用制表符（tab）分开。
3.Hadoop streaming
- Hadoop Streaming工具的最大的好处是：能够让任何语言编写的map, reduce程序能够在hadoop集群上运行；map/reduce程序只要遵循从标准输入stdin读，写出到标准输出stdout即可。
- 另外一个方便之处就是：需要编写的map和reduce程序容易进行单机调试，通过管道前后相接的方式就可以模拟streaming, 在本地完成map/reduce程序的调试。
- 最后，streaming工具提供了丰富的参数来灵活控制作业的过程。
- map/reduce作业是由一些可执行文件或脚本文件充当mapper或者reducer。
  例如：
```
$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar 
    -input myInputDirs 
    -output myOutputDir 
    -mapper /bin/cat 
    -reducer /bin/wc
```
任何可执行文件都可以被指定为mapper/reducer。这些可执行文件不需要事先存放在集群上；如果在集群上还没有，则需要用-file选项让framework把可执行文件作为作业的一部分，一起打包提交。
例如：
```
$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar 
    -input myInputDirs 
    -output myOutputDir 
    -mapper myPythonScript.py 
    -reducer /bin/wc 
    -file myPythonScript.py 
```
查看全文

相关阅读:
appium+python自动化24-滑动方法封装（swipe）
selenium+python自动化82-只截某个元素的图
 selenium+python自动化81-html报告优化（饼图+失败重跑+兼容python2&3）
selenium+python自动化79-文件下载（SendKeys）
selenium+python自动化77-autoit文件上传
 Appium+python自动化22-Appium Desktop
Appium+python自动化21-DesiredCapabilities详解
 Appium+python自动化20-查看iOS上app元素属性
 Appium+python自动化19-iOS模拟器(iOS Simulator)安装自家APP
Appium+python自动化18-brew、carthage和appium-doctor

原文地址：https://www.cnblogs.com/sandy-t/p/9301920.html

hadoop 日常使用记录

1.Hadoop分布式文件系统（HDFS）

hadoop中常用文件操作命令

2.MapReduce with Python

3.Hadoop streaming