zoukankan      html  css  js  c++  java
  • Day10-Spark 系统学习

    Spark组成(BDAS):全称伯克利数据分析栈,通过大规模集成算法、机器、人之间展现大数据应用的一个平台。也是处理大数据、云计算、通信的技术解决方案。

    它的主要组件有:

    SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。

    SparkSQL:Spark Sql 是Spark来操作结构化数据的程序包,可以让我使用SQL语句的方式来查询数据,Spark支持 多种数据源,包含Hive表,parquest以及JSON等内容。

    SparkStreaming: 是Spark提供的实时数据进行流式计算的组件。

    MLlib:提供常用机器学习算法的实现库。

    GraphX:提供一个分布式图计算框架,能高效进行图计算。

    BlinkDB:用于在海量数据上进行交互式SQL的近似查询引擎。

    Tachyon:以内存为中心高容错的的分布式文件系统。

  • 相关阅读:
    P1662 数7
    P3645 [APIO2015]雅加达的摩天楼
    P3396 哈希冲突
    P7479 至曾是英雄的您
    P7480 Reboot from Blue
    Apache Commons Collections
    ESP8266 WIFI杀手
    ESP8266 固件升级
    ESP8266 MicroPython安装与使用
    Window 安装子系统
  • 原文地址:https://www.cnblogs.com/1983185414xpl/p/12285703.html
Copyright © 2011-2022 走看看