zoukankan      html  css  js  c++  java
  • spark高级编程

    启动spark-shell

    如果你有一个Hadoop 集群, 并且Hadoop 版本支持YARN, 通过为Spark master 设定yarn-client 参数值,就可以在集群上启动Spark 作业:
    $ spark-shell --master yarn-client
    如果你是在自己的计算机上运行示例,可以通过设定local[N] 参数来启动本地Spark 集群,其中N 代表运行的线程数,或者用* 表示使用机器上所有可用的核数。比如,要在一个8 核的机器上用8 个线程启动一个本地集群,可以输入以下命令:
    $ spark-shell --master local[*]

    列出了shell 的所有命令。运行:history 或:h?,可以帮你找到之前在某个会话中写过,但一时又想不起来的变量或函数名称。

    运行:paste,可以帮你插入剪贴板中的代码

    scala> val arrRD=sc.makeRDD(Array("hello","hi","how are you","hehe"))

    arrRD: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[270] at makeRDD at <console>:44

    scala> def iscontain(str:String)=str.contains("o")

    iscontain: (str: String)Boolean

    scala> arrRD.filter(iscontain).collect

    res215: Array[String] = Array(hello, how are you)

    scala> arrRD.filter(!iscontain(_)).collect
    res229: Array[String] = Array(hi, hehe) 

    scala> arrRD.filter(iscontain).map(x=>(x,x.length)).collect
    res217: Array[(String, Int)] = Array((hello,5), (how are you,11))

    用元组和case class对数据进行结构化

  • 相关阅读:
    流式布局思想
    盒子的显隐
    高级布局 浮动 清浮动
    display总结 overflow知识
    边界圆角 盒模型布局 图片背景 精灵图
    io模型
    协程
    GIL 进程池与线程池
    守护进程 互斥锁 进程间通讯
    子进程
  • 原文地址:https://www.cnblogs.com/playforever/p/9244056.html
Copyright © 2011-2022 走看看