zoukankan      html  css  js  c++  java
  • 理解Mapreduce


    import
    sys for line in sys.stdin: line=line.strip() words=line.split() for word in words: print '%s %s' % (word,1) from operator import itemgetter import sys current_word=None current_count=0 word=None for line in sys.stdin: line=line.strip() word,count=line.split(' ',1) try: count=int(count) except ValueError: continue if current_word==word: current_count+=count else: if current_word: print '%s %s' % (current_word,current_count) current_count=count current_word=word if current_word==word: print '%s %s' % (current_word,current_count)

    3.将其权限作出相应修改

    5.查看运行结果

    2. 用mapreduce 处理气象数据集

    编写程序求每日最高最低气温,区间最高最低气温

    1. 气象数据集下载地址为:ftp://ftp.ncdc.noaa.gov/pub/data/noaa
    2. 按学号后三位下载不同年份月份的数据(例如201506110136号同学,就下载2013年以6开头的数据,看具体数据情况稍有变通)
      wget -D --accept-regex=REGEX -p data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2013/6*
      

        

    3. 解压数据集,并保存在文本文件中
      zcat ftp.ncdc.noaa.gov/pub/data/noaa/2013/6*.gz >qxdatazwt.txt
    4. 对气象数据格式进行解析

    .编写map函数,reduce函数

    将其权限作出相应修改

    chmod a+x /home/hadoop/mapper.py
    chmod a+x /home/hadoop/wc/reducer.py

    放到HDFS上运行

    将之前爬取的文本文件上传到hdfs上

    用Hadoop Streaming命令提交任务

    查看运行结果

  • 相关阅读:
    .NET实现Excel文件的读写 未测试
    权限管理设计
    struts1中配置应用
    POJ 2139 Six Degrees of Cowvin Bacon(floyd)
    POJ 1751 Highways
    POJ 1698 Alice's Chance
    POJ 1018 Communication System
    POJ 1050 To the Max
    POJ 1002 4873279
    POJ 3084 Panic Room
  • 原文地址:https://www.cnblogs.com/jianzhihao/p/9022001.html
Copyright © 2011-2022 走看看