zoukankan      html  css  js  c++  java
  • 弹性分布式数据集(RDD)

    spark围绕弹性分布式数据集(RDD)的概念展开的,RDD是一个可以并行操作的容错集合。

    创建RDD的方法:

    1.并行化集合(并行化驱动程序中现有的集合)

    调用SparkContext的parallelize收集方法

    2.外部数据集操作(引用外部系统存储的数据集)

    RDD操作

    1.Transformations

    是从将一个以有的RDD生成另外一个RDD.Transformation具有延迟加载的特性(lazy特性),Transformation算子的代码不会真正的被执行,只有当我们的程序中遇到一个action的算子的时候,代码才会真正的被执行。这种涉及模式,提高了spark的运行效率。

    常用:

    map  

    filter(过滤)

  • 相关阅读:
    Java五
    Java I/O流
    第二周学习笔记
    第一周学习笔记
    第六次作业修改版
    第六周作业
    java第四次作业(补)
    java第五次作业
    Java第三次作业
    java第二次作业
  • 原文地址:https://www.cnblogs.com/wangshuang123/p/11053970.html
Copyright © 2011-2022 走看看