zoukankan      html  css  js  c++  java
  • 理解Mapreduce

    1. 用Python编写WordCount程序并提交任务

    程序

    WordCount

    输入

    一个包含大量单词的文本文件

    输出

    文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔

    1. 编写map函数,reduce函数
    2. #!/usr/bin/env python
      import sys
      for line in sys.stdin:
           line=line.strip()
           words=line.split()
           for word in words:
                print '%s	%s' % (word,1)









      #!/usr/bin/env python
      from operator import itemgetter
      import sys
      current_word=None
      current_count=0
      word=None
      
      for line in sys.stdin:
           line=line.strip()
           word,count=line.split('	',1)
           try:
                count=int(count)
           except ValueError:
                continue
           if current_word==word:
                current_count+=count
           else:
                if current_word:
                    print '%s	%s' % (current_word,current_count)
                current_count=count
                current_word=word
      if current_word==word:
           print '%s	%s' % (current_word,current_count)
    3. 将其权限作出相应修改
    4. chmod a+x /home/hadoop/wc/mapper.py
      chmod a+x /home/hadoop/wc/reducer.py
    5. 本机上测试运行代码
    6. 查看运行结果

       

    2. 用mapreduce 处理气象数据集

    编写程序求每日最高最低气温,区间最高最低气温

    1. 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa
    2. 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通)
    3. 解压数据集,并保存在文本文件中
    4. 对气象数据格式进行解析
    5. 编写map函数,reduce函数
    6. 将其权限作出相应修改
    7. 本机上测试运行代码
    8. 放到HDFS上运行
      1. 将之前爬取的文本文件上传到hdfs上
      2. 用Hadoop Streaming命令提交任务
    9. 查看运行结果
  • 相关阅读:
    UVA 1025 A Spy in the Metro DP水题
    ZOJ 3814 Sawtooth Puzzle BFS
    ZOJ 3816 Generalized Palindromic Number
    UVA 10859 Placing Lampposts 树形DP
    UVA 11825 Hackers' Crackdown 状压DP
    POJ 2887 Big String 线段树 离线处理
    POJ 1635 Subway tree systems Hash法判断有根树是否同构
    BZOJ 3110 k大数查询 & 树套树
    sdoi 2009 & 状态压缩
    来自于2016.2.24的flag
  • 原文地址:https://www.cnblogs.com/god1924668503/p/9019088.html
Copyright © 2011-2022 走看看