zoukankan      html  css  js  c++  java
  • spark复习笔记(3):使用spark实现单词统计

    wordcount是spark入门级的demo,不难但是很有趣。接下来我用命令行、scala、Java和python这三种语言来实现单词统计。

    一、使用命令行实现单词的统计

        1.首先touch一个a.txt文本文件

        

        2.加载文本:产生弹性分布式数据集,用sc.textFile()加载文本文件到内存中去,加载到内存之后,整个RDD就是一个数组,就以换行符来做分隔

    val rdd1 = sc.textFile("/home/centos/a.txt")

        3.对2中产生的数组按空格进行切割,切开之后每个元素就变成了一个数组,[hello,world1]

    val rdd2=rdd1.flatMap(line=>line.split(" "))

         4.对3中产生的结果进行key,value键值对额转换

    val rdd3=rdd2.map(wor=>(word,1))

        5.对4中的结果进行聚合

    val rdd4=rdd3.reduceByKey(_ + _)

        5.查看结果

        6.一步操作

        7.实现单词过滤

    对于spark-shell这种环境一般只用于测试和调试

  • 相关阅读:
    android(eclipse)界面控件以及活动总结(二)
    android(eclipse)新手常见问题总结(一)
    易 忽略 知识 点
    switfmailer 邮件时间错误 处理
    error_log
    $_SERVER['URI']
    apache 服务器配置
    sock
    __autolaod
    delete CDU
  • 原文地址:https://www.cnblogs.com/bigdata-stone/p/9848337.html
Copyright © 2011-2022 走看看