zoukankan      html  css  js  c++  java
  • spark(一)

    一、spark 学习

       1、 spark学习的三种地方:

               (1)Spark.apache.org    官方文档

               (2)spark的源代码的官方网站 https://github.com/apache/spark

               (3)spark的官方的博客 https://databricks.com/blog

                 大数据改变了世界,spark改变了大数据

        2、 Apache Spark™ is a fast and general engine for large-scale data processing.      

             处理速度快,相比mapreduce(比mapreduce快10倍左右)

        3、spark四大 特性:

             速度快

             使用简单:可以使用Java、scala、Python、R开发,spark提供了80多个算子

            通用性:Spark 提供了大数据一栈式解决方案。包含了流计算、图计算、机器学习、SQL等。

            运行在任何地方: Spark可以运行在Hadoop的YARN、Mesos, standalone,或者运行在云上。  Spark 处理的数据,可以存储在HDFS, Cassandra, HBase,和S3等等。

        4、spark四种模式:(前两种国内用的比较多)

             (1)spark alone

                        client 、cluster

             (2)spark on yarn

                         client 、cluster

             (3)spark on Mesos(类似于yarn的一个资源调度器)

             (4)Spark on EC2 

         5、什么是RDD(可分区的分布式数据集)

         6、spark架构需要了解的几个基本概念

              Appliction Appliction jar ....等等

        

    补充:工作当中用的比较多的是spark 1.6.0

             

  • 相关阅读:
    两路归并算法
    个性化搜索引擎调研(三)
    编程珠玑开篇磁盘文件排序问题
    Lucene里经常被聊到的几个话题
    成就霸业的座右铭(绝对经典)
    别人对你的态度,决定了你的命运
    iBATIS缓存实现分析[转]
    Taste/Thoth:Taste Architecture 概览【转Beyond Search】
    中文分词算法笔记
    ConcurrentModificationException主要原因及处理方法
  • 原文地址:https://www.cnblogs.com/liuwei6/p/6655372.html
Copyright © 2011-2022 走看看