Hadoop学习笔记：使用Mrjob框架编写MapReduce

zoukankan html css js c++ java

Hadoop学习笔记：使用Mrjob框架编写MapReduce
1.mrjob介绍

一个通过mapreduce编程接口（streamming）扩展出来的Python编程框架。

2.安装方法

pip install mrjob，略。初学，叙述的可能不是很细致，可以加我扣扣：2690382987，一起学习和交流~

3.代码运行方式

下面简介mrjob提供的3种代码运行方式：

1)本地测试，就是直接在本地运行代码；

2)在本地模拟hadoop运行；

3)在hadoop集群上运行。

本地测试：

在脚本、数据所在的路径下（如果不在此路径下，就要把路径写完整）：
python usergoodsscore_1.py sales.data > 1.data
第一个蓝框：mr的python脚本所在位置

第二个蓝框：数据所在的位置

第三个蓝框：输出结果存放的位置

命令执行后在相应的路径下就多了1.data的文件：

在本地模拟hadoop运行：

在脚本、数据所在的路径下（如果不在此路径下，就要把路径写完整）：
python usergoodsscore_1.py -r local <sales.data> hadooplocal.data
第一个蓝框：mr的python脚本所在位置

第二个蓝框：数据所在的位置

第三个蓝框：输出结果存放的位置

命令执行后在相应的路径下就多了hadooplocal.data的文件：

在hadoop集群上运行：
python usergoodsscore_1.py sales.data -r hadoop > hadoop1.data
参考资料：

http://www.cnblogs.com/orchid/archive/2013/04/14/3021211.html

http://www.cnblogs.com/joyeecheung/p/3760386.html

http://blog.rainy.im/2016/03/13/python-on-hadoop-mapreduce/
查看全文

相关阅读:
linux修改时间
 关于PGSQL连接问题
 windows与linux的文件路径
 node js 判断数组中是否包含某个值
 cmd设置utf8编码
 Spring异步请求处理
 Spring任务执行和任务调度
 Tomcat线程池配置
 Apache HttpClient和HttpAsyncClient应用
 FreeMarker导出复杂Excel

原文地址：https://www.cnblogs.com/llfisher/p/6421809.html