zoukankan      html  css  js  c++  java
  • spark学习进度01(安装环境搭建集群搭建)

    1、spark的相关特点

    速度快、易用、通用、兼容


    速度快::
    +
    --
    * Spark 的在内存时的运行速度是 Hadoop MapReduce 的100倍
    * 基于硬盘的运算速度大概是 Hadoop MapReduce 的10倍
    * Spark 实现了一种叫做 RDDs 的 DAG 执行引擎, 其数据缓存在内存中可以进行迭代处理
    --

    易用::
    +
    --
    [source,java]
    ----
    df = spark.read.json("logs.json")
    df.where("age > 21")
    .select("name.first")
    .show()
    ----
    * Spark 支持 Java, Scala, Python, R, SQL 等多种语言的API.
    * Spark 支持超过80个高级运算符使得用户非常轻易的构建并行计算程序
    * Spark 可以使用基于 Scala, Python, R, SQL的 Shell 交互式查询.
    --

    通用::
    +
    --
    * Spark 提供一个完整的技术栈, 包括 SQL执行, Dataset命令式API, 机器学习库MLlib, 图计算框架GraphX, 流计算SparkStreaming
    * 用户可以在同一个应用中同时使用这些工具, 这一点是划时代的
    --

    兼容::
    +
    --
    * Spark 可以运行在 Hadoop Yarn, Apache Mesos, Kubernets, Spark Standalone等集群中
    * Spark 可以访问 HBase, HDFS, Hive, Cassandra 在内的多种数据库
    --

    2、安装配置spark

    找到对应的spark版本,与hadoop的版本是对应的。

    修改sparh.env.sh

    进行分发操作:

    启动操作:

  • 相关阅读:
    Macbook下安装memcached
    CI框架视图继承
    JavaScript&jQuery 基本使用
    Mac下PHP的环境搭建
    完善口语第一步
    php反射
    php_Trait
    php接口和抽象类
    使用seafile搭建自己的私有云存储
    PHP 简单面向对象 验证码类(静态实例对象调用)
  • 原文地址:https://www.cnblogs.com/dazhi151/p/14248465.html
Copyright © 2011-2022 走看看