zoukankan      html  css  js  c++  java
  • Spark导论(Spark自学一)

    1.1 Spark是什么?

      Spark是一个用来实现快速而通用的集群计算的平台。

    1.2 一个大一统的软件栈

      Spark项目包含多个紧密集成的组件。

      1.2.1 Spark Core

        Spark Core实现了Spark的基本功能, 包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对RDD的API定义。RDD表示分布在多个计算节点上可以并行操作的元素集合,是Spark主要的变成抽象。

      1.2.2 Spark SQL

        Spark SQL是Spark用来操作结构化数据的程序包。

      1.2.3 Spark Streaming

        Spark Streaming是Spark提供的对实时数据进行流式计算的组件。

      1.2.4 MLlib

        MLlib是一个提供常见的机器学习功能的程序库。

      1.2.5 GraphX

        GraphX是用来操作图的程序库,可以进行并行的图计算。

      1.2.6 集群管理器

        Spark支持在各种集群管理器上运行。

    1.3 Spark的用户和用途

      两大目标群体: 数据科学家的工程师

      两大用途: 数据科学应用和数据处理应用

    1.4 Spark简史

      略

    1.5 Spark的版本和发布

      略

    1.6 Spark的存储层次

      Spark不仅可以将任何Hadoop分布式文件系统(HDFS)上的文件读取为分布式数据集,也可以支持其他支持Hadoop接口的系统。

        

      

  • 相关阅读:
    VS2015快捷键
    layui radio 监听
    jsvascript === 和==的区别
    bootstrap table checkbox 根据值选中、禁用等
    table 中 display为 block 时 tbody 失去宽度
    打包成Zip
    Server.MapPath()用法
    JS比较当前时间是否在指定时间段内
    从多张表获取数据,重组DataTable,根据重组路径,打包下载文件。
    checkbox 根据值选中
  • 原文地址:https://www.cnblogs.com/zhangtianyuan/p/7645739.html
Copyright © 2011-2022 走看看