hadoop day 3 - 走看看

zoukankan html css js c++ java

hadoop day 3

1.map：局部处理；reduce：汇总

mapper对数据做切分，一份程序在不同的DataNode上独立运行对数据进行处理，reduce程序将所有DataNode上的统计数据进行汇总

Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>，以key-value的形式对数据进行输入输出

前两个指定mapper输入数据的类型

后两个指定mapper输入数据的类型

map（）：MapReduce框架每读一行数据就调用一次该方法

reducer对数据做汇总

reduce（）：框架在map处理完成之后，将所有kv对缓存起来，进行分组，然后传递一个组<key, value{}>，调用一次reduce方法

2.

对所要用到的MapReduce类进行描述，即指定特定的类进行处理

还需要指定该作业要处理的数据所在的路径以及该作业输出的结果放到哪个路径

指定reduce的输出数据kv类型

job.setOutputKeyClass(Text.class)

job.setOutputValueClass(LongWritable.class)

指定mapper的输出数据kv类型

job.setMapOutputKeyClass(Text.class)

job.setMapOutputValue(LongWritable.class)

指定原始输入数据存放位置

FileInputFormat.setInputPaths(job,new Path(dirname));//读取目录下所有的文件进行处理

指定计算结果的输出位置

FileOutputFormat.setOutputPath(job,newPath(dirname));

指定整个job所用的那些类在哪个jar包

job.setJarByClass(WCRunner.class)

将job提交至集群运行

job.waitForCompletion(true);

3.YARN框架——主要进行资源调度（不懂mapreduce相关逻辑，只负责资源的调度和分配）

1)Run jar ------>向resource manager申请执行一个job

2)然后返回job相关资源提交的路径staging-dir（HDFS中的/tmp/xx/xx/yarn-staging/jobID/）和为本job产生的jobID给Runjar

3)然后提交资源到hdfs中

4)汇报提交结果（提交完成）

5)resource manager将本job加入任务队列（并分配相关的node manager 运行job）

6)node manager领取任务（通过心跳机制和resource manager进行通信，从任务队列中领取任务）

7)node manager中为各个job分配运行资源和容器（container）

-------------------------------------------------------------------------------------------------分配资源完毕

8)resource manager 启动MRAppMaster（动态随机产生）类进行MapReduce程序的分配和调度（和yarn框架没有关系），yarn框架的工作到此结束

9)MRAppMaster向Resource Manager注册资源

10)MRAppMaster在资源容器中启动map任务进程（yarnChild子进程）

11)MRAppMaster启动reduce task（yarnChild子进程）

12)job完成后，MRAppMaster向resource manager注销自己

Yarn具有较强的通用性，只负责资源的分发，与具体的计算模型没有较强的依赖性，可以跑各种不同的运行模型框架（Storm，Spark），只需启动不同计算模型的AppMaster类便可实现不同的计算模型框架

Runjar通过RPC进行通信

4.mapreduce框架通过MRAppMaster来控制mapreduce程序的执行，由yarn框架执行

　　　　　　resource manager

node manager1 node manager2 node manager3

5.mr程序的几种提交运行模式

本地模式

1）在windows的eclipse里面直接运行main方法，就会将job提交给本地执行器localobrunner执行

　　--输入输出数据放在本地路径下（c:/wc/srcdata）

　　--输入输出数据放在hdfs中（hdfs://localhost）

2）在linux的eclipse里面直接运行main方法，但是不要添加yarn相关配置，也会提交给local执行

集群模式

1）将工程打成jar包，用hadoop jar命令提交运行

2）在linux的eclipse中直接运行main方法，也可以提交到集群中去运行，但是，必须采取一下措施

在工程的src目录下，加入mapred-site.xml和yarn-site.xml

将工程打成jar包，同时在main方法中添加一个conf的配置参数 conf.set("","")

3）在windows下的eclipse运行

查看全文

相关阅读:
QTableView表格控件区域选择-自绘选择区域
 Qt高仿Excel表格组件-支持冻结列、冻结行、内容自适应和合并单元格
 QRowTable表格控件(三)-效率优化之-合理使用QStandardItem
QRowTable表格控件(二)-红涨绿跌
 QRowTable表格控件-支持hover整行、checked整行、指定列排序等
 Qt实现表格控件-支持多级列表头、多级行表头、单元格合并、字体设置等
 Asp.net MVC利用Ajax.BeginForm实现bootstrap模态框弹出，并进行前段验证
 Bootstrap：弹出框和提示框效果以及代码展示
 Bootstrap treeview增加或者删除节点
 bootstrap-treeview 如何实现全选父节点下所有子节点及反选

原文地址：https://www.cnblogs.com/lvjygogo/p/8641525.html