zoukankan      html  css  js  c++  java
  • 2020寒假(1)

    假期的前段时间对于上学期的大数据稍微做了总结,对可视化工具echarts参照b站学习了几节。

    接下来的假期将学习spark

    今天将spark安装完成,并且在大学生mooc上将其spark的一章视频学习完。其分为6小节。

    Spark概述,spark生态系统,spark运行架构,spark sqlspark的部署和应用方式,spark编程实践。

     成功安装spark

    1. Spark是基于内存计算的大数据并行计算框架,所以相比于基于磁盘计算的hadoop计算框架具有低延迟,运行速度快的优点。
    2. Spark生态系统包含了spark core(提供内存计算,)、spark sql(提供交互式查询分析)、spark streaming(提供流计算功能)、MLLib(提供机器学习算法库的组件)和Graphx(提供图计算)等组件。

     

     3.运行架构

     

    spark运行流程:

     

     Spark采用Executor的优点

    ①利用多线程来执行具体的任务,减少任务的启动开销

    ②利用BlockManager存储模块减少IO开销

    4.spark sql:hive兼容层面仅依赖HiveQL解析、Hive元数据。

    接下来准备每天进行spark实验

  • 相关阅读:
    python连接字符串的几种方法--转子(香草拿铁的园子)
    winform属性
    C# Timer
    SQL基础
    SQL 基础
    File类 ReadAllBytes() ReadAllLines() ReadAllText()
    学习C#20天有感
    装箱和拆箱
    机器学习基础:朴素贝叶斯小结
    分类问题样本不均衡问题
  • 原文地址:https://www.cnblogs.com/zjl-0217/p/12231339.html
Copyright © 2011-2022 走看看