zoukankan      html  css  js  c++  java
  • Spark导论(Spark自学一)

    1.1 Spark是什么?

      Spark是一个用来实现快速而通用的集群计算的平台。

    1.2 一个大一统的软件栈

      Spark项目包含多个紧密集成的组件。

      1.2.1 Spark Core

        Spark Core实现了Spark的基本功能, 包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对RDD的API定义。RDD表示分布在多个计算节点上可以并行操作的元素集合,是Spark主要的变成抽象。

      1.2.2 Spark SQL

        Spark SQL是Spark用来操作结构化数据的程序包。

      1.2.3 Spark Streaming

        Spark Streaming是Spark提供的对实时数据进行流式计算的组件。

      1.2.4 MLlib

        MLlib是一个提供常见的机器学习功能的程序库。

      1.2.5 GraphX

        GraphX是用来操作图的程序库,可以进行并行的图计算。

      1.2.6 集群管理器

        Spark支持在各种集群管理器上运行。

    1.3 Spark的用户和用途

      两大目标群体: 数据科学家的工程师

      两大用途: 数据科学应用和数据处理应用

    1.4 Spark简史

      略

    1.5 Spark的版本和发布

      略

    1.6 Spark的存储层次

      Spark不仅可以将任何Hadoop分布式文件系统(HDFS)上的文件读取为分布式数据集,也可以支持其他支持Hadoop接口的系统。

        

      

  • 相关阅读:
    树莓派镜像拷贝
    zookeeper客户端Watcher管理
    设置ZooKeeper服务器地址列表源码解析及扩展
    利用zookeeper实现发布订阅模式
    maven依赖错误排查经验
    理解CMS GC日志
    深入分析ThreadLocal
    Fail-Fast分析
    Stream学习过程中遇到的一个问题记录
    ClassLoader 学习笔记
  • 原文地址:https://www.cnblogs.com/zhangtianyuan/p/7645739.html
Copyright © 2011-2022 走看看