zoukankan      html  css  js  c++  java
  • 2020寒假(1)

    假期的前段时间对于上学期的大数据稍微做了总结,对可视化工具echarts参照b站学习了几节。

    接下来的假期将学习spark

    今天将spark安装完成,并且在大学生mooc上将其spark的一章视频学习完。其分为6小节。

    Spark概述,spark生态系统,spark运行架构,spark sqlspark的部署和应用方式,spark编程实践。

     成功安装spark

    1. Spark是基于内存计算的大数据并行计算框架,所以相比于基于磁盘计算的hadoop计算框架具有低延迟,运行速度快的优点。
    2. Spark生态系统包含了spark core(提供内存计算,)、spark sql(提供交互式查询分析)、spark streaming(提供流计算功能)、MLLib(提供机器学习算法库的组件)和Graphx(提供图计算)等组件。

     

     3.运行架构

     

    spark运行流程:

     

     Spark采用Executor的优点

    ①利用多线程来执行具体的任务,减少任务的启动开销

    ②利用BlockManager存储模块减少IO开销

    4.spark sql:hive兼容层面仅依赖HiveQL解析、Hive元数据。

    接下来准备每天进行spark实验

  • 相关阅读:
    Beta 冲刺(1/7)
    福大软工 · BETA 版冲刺前准备(团队)
    福大软工 · 第十一次作业
    Alpha 冲刺 (8/10)
    Alpha 冲刺 (7/10)
    Alpha 冲刺 (6/10)
    个人作业——软件工程实践总结作业
    Beta 答辩总结
    Beta 冲刺 (7/7)
    Beta 冲刺 (6/7)
  • 原文地址:https://www.cnblogs.com/zjl-0217/p/12231339.html
Copyright © 2011-2022 走看看