zoukankan      html  css  js  c++  java
  • Spark初探

    Apache Spark是一个针对大规模数据的快速、统一处理引擎。

    One stack rule them all

    1-Stream Processing :spark Streaming

    2-Ad-hoc-Queries :Spark SQL

    3-Batch Processing: Spark Core(和Map-reduce一样是批处理框架)

    Map-reduce慢的原因:

    1-在执行Map-reduce job运行的过程中有大量的磁盘操作;

    2-partition的时候和进入reduce之前会进行排序;一部分排序在map中进行,另一部分排序在reduce中进行;这里的排序使用的是归并排序;

    3-额外的复制,网络传输,序列化;

    Spark快的原因:

    1-基于内存的计算

    迭代都是在内存中计算的,shuffle过程也是在磁盘中进行的;所以spark虽然是基于内存的数据处理框架,但是并不是说所有的操作都是在内存中进行的。

    2-DAG

    Spark支持的是那种语言:

    Scala(Excellent)

    Python(good)

    java(good)

    spark运行模式

    local :多用于测试;

    Standalone:独立于Hadoop的一套运行环境,具有独立的资源管理者等组件;

    Mesos:基于Mesos资源调度框架运行;

    YARN:基于Yarn的资源调度框架运行;

    Mesos和Yarn都是资源调度管理框架

    Mesos是用C++实现的,支持细粒度和粗粒度的资源管理;

    Yarn使用java实现,仅支持粗粒度的资源调度;这里的细粒度指的是自愿的弹性,用多少分多少,后面需求增加可以再分配,而Yarn的粗粒度资源调度的意思是初始画的时候分配多少就一直是多少,直到job进程消亡。

                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  

  • 相关阅读:
    .NET Core实战项目之CMS 第一章 入门篇-开篇及总体规划
    使用Visual Studio Code开发.NET Core看这篇就够了
    ASP.NET Core WebApi使用Swagger生成api说明文档看这篇就够了
    asp.Net Core免费开源分布式异常日志收集框架Exceptionless安装配置以及简单使用图文教程
    【半译】扩展shutdown超时设置以保证IHostedService正常关闭
    从零搭建分布式文件系统MinIO比FastDFS要更合适
    用asp.net core结合fastdfs打造分布式文件存储系统
    在ASP.NET Core中创建基于Quartz.NET托管服务轻松实现作业调度
    Nuget多项目批量打包上传服务器的简明教程
    一个新实验:使用gRPC-Web从浏览器调用.NET gRPC服务
  • 原文地址:https://www.cnblogs.com/maxigang/p/9810757.html
Copyright © 2011-2022 走看看