zoukankan      html  css  js  c++  java
  • 用Python编写WordCount程序任务


    用Python编写WordCount程序任务

    程序

    WordCount

    输入

    一个包含大量单词的文本文件

    输出

    文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔

    1. 编写map函数,reduce函数
    2. 将其权限作出相应修改
    3. 本机上测试运行代码
    4. 放到HDFS上运行
    5. 下载并上传文件到hdfs上
    6. 用Hadoop Streaming命令提交任务
      #!/usr/bin/env python2
      import sys 
      for line in sys.stdin:
          line = line.strip()
          words = line.split()
          for word in words:
              print '%s	%s' % (word,1)
      #!/usr/bin/env python2
      from operator import itemgetter
      import sys
      
      current_word = None
      current_count= 0
      word= None
      
      for line in sys.stdin:
          line = line.strip()
          word,count=line.split(' /t',1)
          try:
              count =int (count)
          except ValueError:
              continue
          if current_word ==word:
             current_count += count
          else:
              if current_word:
                 print  (current_word,cureent_count)
              current_count=count
              current_word =word
      if current_word==word:
         print (current_word,current_count)

      设置权限

      chomd a+x mapper.py
      chomd a+x reducer.py

    编写脚本

    上传到hdfs

  • 相关阅读:
    c/c++(c++和网络编程)日常积累(二)
    docker日常积累
    c/c++日常积累
    qt日常积累
    YUV相关积累
    02-asio学习
    01--c实现基础客户端和服务端与c++ boost.asio实现对比
    webrtc学习笔记积累
    linux-日常工作积累
    用Java链接SQL Server
  • 原文地址:https://www.cnblogs.com/weixingna/p/9025554.html
Copyright © 2011-2022 走看看