zoukankan      html  css  js  c++  java
  • spart快速大数据分析学习提纲(一)

    Spart是什么

    Spart是一个用来实现快速而而通用的集群计算平台。

    在速度方面,Spart扩展了广泛使用的Mapreduce计算模型,而且高效的支持更多的计算模式,包括交互式查询和流处理。Spart的一个主要特点是能够在内存中进行计算,因而更快。即使必须在硬盘上进行复杂计算,Spart依然比Mapreduce快。

    Spart适用于各种各样原先需要多种不同分布式平台的场景,包括批处理,迭代算法,交互式查询,流处理。通过在一个统一的框架下支持这些不同的计算,Spart使我们可以简单而低耗的把各种处理流程整合在一起,不仅如此这种特性还大大减轻了原先需要对各种平台分别管理的负担。

    1. Spart Core

      Spart Core实现Spart的基本功能,包含任务调度,内存管理,错误恢复,与存储系统交互。Spart Core中包含对弹性分布式数据集(RDD)的API的定义.。RDD表示分布在多个计算机节点上可以并行操作的元素的集合,是Spart主要的编程抽象。

    2. Spart SQL

      Spart SQL是Spart用来操作结构化数据的程序包,通过Spart SQL ,我们可以使用SQL或 Apache Hive版本的SQL来查询数据。

    3. Spart Streamig

      Spart Streamig是Spart提供的对实时数据进行流式计算的组件。如生产环境中网页服务器日志,或是网络服务中用户提交的状态更新组成的消息列队,都是数据流。

    4. MLlib

      Spart中提供常见的机器学习功能的程序裤,叫做MLlib。MLlib提供的机器学习算法,包括分类,回归,聚类,协同过滤,决策树,还提供模型评估,数据导入等功能。

    5. Graphx

      Graphx是用来操作图(如社交关系图)的程序库,可以进行并行的图计算。

  • 相关阅读:
    【经验】AngularJS
    jquery复选框选择 DoTop
    SQL查询数据库名、表名、列名 DoTop
    C#读取配置文件中的信息 DoTop
    ASP.NET获取工程根目录的方法集合 DoTop
    ASP.NET前台Html.DropDownList的使用 DoTop
    JS的同步和异步加载
    tornado nginx 同源(AccessControlAllowOrigin)错误处理记录
    sql join 的一次小使用
    关于CSS3 animation 属性在ie edge浏览器中不能工作
  • 原文地址:https://www.cnblogs.com/SamllBaby/p/5695525.html
Copyright © 2011-2022 走看看