zoukankan      html  css  js  c++  java
  • 用Python编写WordCount程序任务


    用Python编写WordCount程序任务

    程序

    WordCount

    输入

    一个包含大量单词的文本文件

    输出

    文件中每个单词及其出现次数(频数),并按照单词字母顺序排序,每个单词和其频数占一行,单词和频数之间有间隔

    1. 编写map函数,reduce函数
    2. 将其权限作出相应修改
    3. 本机上测试运行代码
    4. 放到HDFS上运行
    5. 下载并上传文件到hdfs上
    6. 用Hadoop Streaming命令提交任务
      #!/usr/bin/env python2
      import sys 
      for line in sys.stdin:
          line = line.strip()
          words = line.split()
          for word in words:
              print '%s	%s' % (word,1)
      #!/usr/bin/env python2
      from operator import itemgetter
      import sys
      
      current_word = None
      current_count= 0
      word= None
      
      for line in sys.stdin:
          line = line.strip()
          word,count=line.split(' /t',1)
          try:
              count =int (count)
          except ValueError:
              continue
          if current_word ==word:
             current_count += count
          else:
              if current_word:
                 print  (current_word,cureent_count)
              current_count=count
              current_word =word
      if current_word==word:
         print (current_word,current_count)

      设置权限

      chomd a+x mapper.py
      chomd a+x reducer.py

    编写脚本

    上传到hdfs

  • 相关阅读:
    重剑无锋
    PHP session用redis存储
    Beego 和 Bee 的开发实例
    谁是最快的Go Web框架
    Go语言特点
    计算机组成原理之机器
    Elasticsearch 健康状态处理
    Elasticsearch 的一些关键概念
    Elasticsearch 相关 api 操作
    Elasticsearch 在 windows 和 ubuntu 下详细安装过程
  • 原文地址:https://www.cnblogs.com/weixingna/p/9025554.html
Copyright © 2011-2022 走看看