一、读取csv文件
1.用pandas读取
import pandas as pd from pyspark.sql import SparkSession spark=SparkSession.builder.appName("test").getOrCreate() f=pd.read_csv("filePath") df=spark.createDataFrame(f)
但是pandas和spark数据转换的时候速度很慢,所以不建议这么做
2.直接读取
spark.read.format("csv").options(header="True",sep=",",encoding="utf-8",inferschema='true').load("path")