zoukankan      html  css  js  c++  java
  • spark和MR比较

    MapReduce: 分布式的计算框架
    缺点:执行速度慢
    IO瓶颈 ==> 磁盘IO 网络IO
    shuffle机制:数据需要输出到磁盘,而且每次shuffle都需要进行排序操作
    框架的机制:
    只有Map和Reduce两个算子,对于比较复杂的任务,需要构建多个job来执行
    当存在job依赖的时候,job之间的数据需要落盘(输出到HDFS上)

    Spark:基于内存的分布式计算框架==>是一个执行引擎
    用RDD进行各种运算,有多种算子(具体可以参考源码)
    起源于加州大学伯克利分校的AMPLib实验室
    官网:http://spark.apache.org/
    官方博客:https://databricks.com/blog

    运行环境:

    MR运行在YARN上,

    spark

    local:本地运行
    standalone:使用Spark自带的资源管理框架,运行spark的应用
    yarn:将spark应用类似mr一样,提交到yarn上运行
    mesos:类似yarn的一种资源管理框架

  • 相关阅读:
    Unity中的shadows(一)
    位1的个数
    Lua的协程
    安装SQL Server 2016时报0x84b10001生成XML文档时出错
    pcl registeration
    SO3和SE3的使用
    save_obj
    vulkan
    gcc编译选项
    全局函数与全局变量 多次使用、引用
  • 原文地址:https://www.cnblogs.com/wakerwang/p/9390734.html
Copyright © 2011-2022 走看看