zoukankan      html  css  js  c++  java
  • Spark

      0、参考自http://tech.uc.cn/?p=2116

      http://www.csdn.net/article/2013-07-08/2816149

      1、Spark是一个高效的分布式计算系统。它基于MapReduce(MR)算法实现分布式计算,但Job的中间输出和结果可以保存在内存,从而不需要读写HDFS,因此能够更好地适用于数据挖掘(DM)和机器学习(ML)等需要迭代的MR的算法。

      此外,Spark提供多种类型的数据集操作(如Transformations操作:map、filter、sample等,Actions操作:count、collect、reduce等),而不只是Hadoop的Map和Reduce,各个处理节点之间的通信模型也不再像Hadoop那样就是唯一的Data Shuffle一种模式。

      不过由于RDD的特性,Spark不适用于那种异步细粒度更新状态(增量修改)的应用,如web服务的存储或增量的web爬虫和索引。

      Spark通过提供丰富的Scala、Java、Python API及交互式Shell来提高可用性。

  • 相关阅读:
    本周总结
    每日日报
    每日日报
    每日日报
    每日日报
    每日日报
    每日日报
    Hibernate中session.createCriteria的用法
    Spring AOP 源码分析
    TCP的三次握手四次挥手
  • 原文地址:https://www.cnblogs.com/hanerfan/p/3805282.html
Copyright © 2011-2022 走看看