zoukankan      html  css  js  c++  java
  • Spark RDD概念学习系列之如何创建RDD

      不多说,直接上干货!

    创建RDD

      方式一:从集合创建RDD

      (1)makeRDD

      (2)Parallelize

    注意:makeRDD可以指定每个分区perferredLocations参数,而parallelize则没有。

      方式二:读取外部存储创建RDD

      Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型,Spark同样支持。

      (1)多文件格式支持:

          

       (2)多文件系统支持:

          1)本地文件系统

          2)S3

          3)HDFS

      (3)数据库

          1)JdbcRDD

          2)spark-cassandra-connector(datastax/spark-cassandra-connector)

          3)org.apache.hadoop.hbase.mapreduce.TableInputFormat(SparkContext.newAPIHadoopRDD)

          4)Elasticsearch-Hadoop

  • 相关阅读:
    Java框架之Mybatis(一)
    Java框架之Hibernate(四)
    Java框架之Hibernate(三)
    递归与分治
    散列
    绪论
    系统的分类(二)
    系统的定义与分类(一)
    Guess My Number 游戏
    2.5 随机数的生成
  • 原文地址:https://www.cnblogs.com/zlslch/p/6941225.html
Copyright © 2011-2022 走看看