zoukankan      html  css  js  c++  java
  • 假期学习进度十二

    一、安装Spark

    1. sudo tar -zxf ~/下载/spark-1.6.2-bin-without-hadoop.tgz -C /usr/local/
    2. cd /usr/local
    3. sudo mv ./spark-1.6.2-bin-without-hadoop/ ./spark
    4. sudo chown -R hadoop:hadoop ./spark

    Shell 命令

    安装后,还需要修改Spark的配置文件spark-env.sh

    1. cd /usr/local/spark
    2. cp ./conf/spark-env.sh.template ./conf/spark-env.sh

    编辑spark-env.sh文件(vim ./conf/spark-env.sh),在第一行添加以下配置信息:

    export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

    配置完成后就可以直接使用,不需要像Hadoop运行启动命令。
    通过运行Spark自带的示例,验证Spark是否安装成功。

    1. cd /usr/local/spark
    2. bin/run-example SparkPi

    执行时会输出非常多的运行信息,输出结果不容易找到,可以通过 grep 命令进行过滤(命令中的 2>&1 可以将所有的信息都输出到 stdout 中,否则由于输出日志的性质,还是会输出到屏幕中):

    1. bin/run-example SparkPi 2>&1 | grep "Pi is"

    二、使用 Spark Shell 编写代码

    启动Spark Shell

    1. bin/spark-shell

     加载text文件

    spark创建sc,可以加载本地文件和HDFS文件创建RDD。这里用Spark自带的本地文件README.md文件测试。

    1. val textFile = sc.textFile("file:///usr/local/spark/README.md")

    加载HDFS文件和本地文件都是使用textFile,区别是添加前缀(hdfs://和file://)进行标识。

     简单的RDD操作:

    //获取RDD文件textFile的第一行内容
    textFile.first()

    //获取RDD文件textFile所有项的计数
    textFile.count()

    //抽取含有“Spark”的行,返回一个新的RDD
    val lineWithSpark = textFile.filter(line => line.contains("Spark"))

    //统计新的RDD的行数
    lineWithSpark.count()

    退出spark shell

  • 相关阅读:
    zabbix5.0安装
    Ubuntu下为服务器添加新用户
    oss存储的安装与使用
    模型结构可视化
    GPU算力查询
    台式机PC挂载共享盘
    Python批量拷贝文件
    NVIDIA显卡驱动,CUDA,CUDNN安装流程
    使用Docker GPU训练环境安装过程中所碰到的问题
    Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running?
  • 原文地址:https://www.cnblogs.com/lover995/p/12299747.html
Copyright © 2011-2022 走看看