一、PDD创建的两种方式
从文件系统中加载数据
通过并行集合(数组)加载数据
二、从文件系统加载数据
Spark的SparkContext通过textFile()读取数据生成内存中的RDD
textFile()方法支持的数据类型:
(1)Linux系统本地的文件云端文件
注:加载本地文件地址格式:file:///(三个斜杠)
(2)Hdfs中的文件
(3)云端文件
三、通过并行集合(数组)加载数据
SparkContext可以调用parallelize()方法,将集合(数组)并行化创建RDD
四、学习视频
https://www.bilibili.com/video/BV1oE411s7h7?p=22