zoukankan      html  css  js  c++  java
  • spark高级编程

    启动spark-shell

    如果你有一个Hadoop 集群, 并且Hadoop 版本支持YARN, 通过为Spark master 设定yarn-client 参数值,就可以在集群上启动Spark 作业:
    $ spark-shell --master yarn-client
    如果你是在自己的计算机上运行示例,可以通过设定local[N] 参数来启动本地Spark 集群,其中N 代表运行的线程数,或者用* 表示使用机器上所有可用的核数。比如,要在一个8 核的机器上用8 个线程启动一个本地集群,可以输入以下命令:
    $ spark-shell --master local[*]

    列出了shell 的所有命令。运行:history 或:h?,可以帮你找到之前在某个会话中写过,但一时又想不起来的变量或函数名称。

    运行:paste,可以帮你插入剪贴板中的代码

    scala> val arrRD=sc.makeRDD(Array("hello","hi","how are you","hehe"))

    arrRD: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[270] at makeRDD at <console>:44

    scala> def iscontain(str:String)=str.contains("o")

    iscontain: (str: String)Boolean

    scala> arrRD.filter(iscontain).collect

    res215: Array[String] = Array(hello, how are you)

    scala> arrRD.filter(!iscontain(_)).collect
    res229: Array[String] = Array(hi, hehe) 

    scala> arrRD.filter(iscontain).map(x=>(x,x.length)).collect
    res217: Array[(String, Int)] = Array((hello,5), (how are you,11))

    用元组和case class对数据进行结构化

  • 相关阅读:
    Linux用户空间与内核地址空间
    [Linux内存]——内核地址空间
    使用 GDB 调试多进程程序
    Linux GDB常用命令
    GDB常用命令使用
    GDB调试原理——ptrace系统调用
    不可见乱码 怎么消除
    Vue use的理解
    Element-UI 下边框,表格错位问题
    sort 排序传递更多参数
  • 原文地址:https://www.cnblogs.com/playforever/p/9244056.html
Copyright © 2011-2022 走看看