zoukankan      html  css  js  c++  java
  • spark(一)

    一、spark 学习

       1、 spark学习的三种地方:

               (1)Spark.apache.org    官方文档

               (2)spark的源代码的官方网站 https://github.com/apache/spark

               (3)spark的官方的博客 https://databricks.com/blog

                 大数据改变了世界,spark改变了大数据

        2、 Apache Spark™ is a fast and general engine for large-scale data processing.      

             处理速度快,相比mapreduce(比mapreduce快10倍左右)

        3、spark四大 特性:

             速度快

             使用简单:可以使用Java、scala、Python、R开发,spark提供了80多个算子

            通用性:Spark 提供了大数据一栈式解决方案。包含了流计算、图计算、机器学习、SQL等。

            运行在任何地方: Spark可以运行在Hadoop的YARN、Mesos, standalone,或者运行在云上。  Spark 处理的数据,可以存储在HDFS, Cassandra, HBase,和S3等等。

        4、spark四种模式:(前两种国内用的比较多)

             (1)spark alone

                        client 、cluster

             (2)spark on yarn

                         client 、cluster

             (3)spark on Mesos(类似于yarn的一个资源调度器)

             (4)Spark on EC2 

         5、什么是RDD(可分区的分布式数据集)

         6、spark架构需要了解的几个基本概念

              Appliction Appliction jar ....等等

        

    补充:工作当中用的比较多的是spark 1.6.0

             

  • 相关阅读:
    Linux简介
    在VMware上安装Ubuntu软件步骤与遇到的相关问题及解决方案
    深度学习框架之TensorFlow的概念及安装(ubuntu下基于pip的安装,IDE为Pycharm)
    Windows下安装Python及Eclipse中配置PyDev插件
    结构体定义struct和typedef struct
    定义与声明
    error LNK2005:错误改正方法
    OPENCV 笔记
    RANSANC算法
    梯度下降法和牛顿法
  • 原文地址:https://www.cnblogs.com/liuwei6/p/6655372.html
Copyright © 2011-2022 走看看