zoukankan      html  css  js  c++  java
  • Spark shell里的语句探索

      不多说,直接上干货!

    获得垃圾链接数据集的命令如下:

      wget http://www-stat.stanford.edu/~tibs/ElemStatLearn/datasets/spam.data

    scala> val inFile = sc.textFile("./spam.data)

      这行代码的意思是,将spam.data文件中的每行作为一个RDD中的单独元素加载到spark中,并返回一个名为inFile的RDD。

    scala> import spark.SparkFiles;

    scala> val file = sc.addFile("spam.data")

    scala> val inFile sc.textFile(SparkFiles.get("spam.data"))

      这段代码的意思是,让spam.data文件在所有机器上都有备份。

    _.toDouble 和 x=>x.toDouble等价

    scala> val rawFile = sc.textFile("READEME.md")

    sclaa> val words = rawFile.flatMap("line=> line.spilt("))

    scala> val wordNumber = words.map(w => (w,1))

    scala> val wordCounts = wordNumber.reduceBykey(_+_)

    scala> wordCounts.foreach(println)

      这段代码的意思是,读取文件READEME.md,以空格为拆分标志,将文件中的每一行分割为多个单词。对每一个单词进行计数,将单词进行分类合并,计算总的出现次数。将所有单词出现的次数进行打印输出。

    欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑
     
     
     

    同时,大家可以关注我的个人博客

       http://www.cnblogs.com/zlslch/   和     http://www.cnblogs.com/lchzls/      http://www.cnblogs.com/sunnyDream/   

       详情请见:http://www.cnblogs.com/zlslch/p/7473861.html

      人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和个人学习工作的精华干货知识,一切来于互联网,反馈回互联网。
      目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,每天必须有收获

          对应本平台的讨论和答疑QQ群:大数据和人工智能躺过的坑(总群)(161156071) 

     

  • 相关阅读:
    网络编程【二】socket(套接字)初识
    网络编程【一】操作系统的发展史
    面向对象【十三】类的魔术方法
    面向对象【十二】包装和授权
    面向对象【十一】类内置的attr属性
    面向对象【十】反射
    openwrt 编译错误
    修改openwrt 终端登录欢迎界面
    openwrt quilt 使用
    openwrt luci 入门介绍
  • 原文地址:https://www.cnblogs.com/zlslch/p/5861765.html
Copyright © 2011-2022 走看看