zoukankan      html  css  js  c++  java
  • 假期学习进度十二

    一、安装Spark

    1. sudo tar -zxf ~/下载/spark-1.6.2-bin-without-hadoop.tgz -C /usr/local/
    2. cd /usr/local
    3. sudo mv ./spark-1.6.2-bin-without-hadoop/ ./spark
    4. sudo chown -R hadoop:hadoop ./spark

    Shell 命令

    安装后,还需要修改Spark的配置文件spark-env.sh

    1. cd /usr/local/spark
    2. cp ./conf/spark-env.sh.template ./conf/spark-env.sh

    编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

    export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

    配置完成后就可以直接使用,不需要像Hadoop运行启动命令。
    通过运行Spark自带的示例,验证Spark是否安装成功。

    1. cd /usr/local/spark
    2. bin/run-example SparkPi

    执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤(命令中的 2>&1 可以将所有的信息都输出到 stdout 中,否则由于输出日志的性质,还是会输出到屏幕中):

    1. bin/run-example SparkPi 2>&1 | grep "Pi is"

    二、使用 Spark Shell 编写代码

    启动Spark Shell

    1. bin/spark-shell

     加载text文件

    spark创建sc,可以加载本地文件和HDFS文件创建RDD。这里用Spark自带的本地文件README.md文件测试。

    1. val textFile = sc.textFile("file:///usr/local/spark/README.md")

    加载HDFS文件和本地文件都是使用textFile,区别是添加前缀(hdfs://和file://)进行标识。

     简单的RDD操作:

    //获取RDD文件textFile的第一行内容
    textFile.first()

    //获取RDD文件textFile所有项的计数
    textFile.count()

    //抽取含有“Spark”的行,返回一个新的RDD
    val lineWithSpark = textFile.filter(line => line.contains("Spark"))

    //统计新的RDD的行数
    lineWithSpark.count()

    退出spark shell

  • 相关阅读:
    查看crontab的日志记录定位定时任务问题
    Latex 表格内公式换行方法
    C语言中qsort函数用法
    7 种常用的排序算法-视觉直观感受
    Ubuntu下如何安装YouCompleteMe插件
    Linux下非root用户如何安装软件
    系统进化树-原理介绍及软件使用
    LaTeX 页眉页脚的设置
    TEXshade教程- 多重比对着色软件包
    easyUI自带的时间插件日期选择、月份选择、时间选择的使用
  • 原文地址:https://www.cnblogs.com/lover995/p/12299747.html
Copyright © 2011-2022 走看看