1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import SparkSession 5 6 conf = SparkConf().setAppName("abc") 7 sc = SparkContext(conf=conf) 8 hiveCtx = HiveContext(sc) 9 df = hiveCtx.sql(sql) #用Hive拉数 10 11 df.cache() # 数据载入缓存 12 df.show() # 不加参数默认展示前20行 13 df.count() # 统计行数 14 df.printSchema() # 查看schema 15 df.columns # 查看字段 16 df.dtypes # 查看字段类型 17 df.select('age','name') # 带show才能看到结果 18 df.select(df.age.alias('age_value'),'name').show() #别名 19 df.filter(df.name=='Alice').show() # 筛选 20 df.drop_duplicates() #删除重复记录 21 df.distinct() #去重 22 df.drop('id') #删除列 23 df.na.drop(thresh=2).show() #如果一行至少2个缺失值才删除该行 24 df.na.fill('unknown').show() #对所有列用同一个值填充缺失值 25 df.na.fill({'name':'--', 'age':0}).show() # 不同的列用不同的值填充 26 df.groupby('name').agg(F.max(df['age'])) # 分组计算 27 df.groupby('name').agg(F.max(df['age'])) # join 28 df.describe("age").show() # 描述性统计分析 29 spark.catalog.listTables() #查看temptable 30 31 df.select(df.age+1,'age','name') # 增加列 32 df.select(F.lit(0).alias('id'),'age','name') # 增加列 33 df.unionAll(df2) # 增加行
1 #spark = SparkSession.builder.master("local").appName("Word Count").config("spark.some.config.option", "some-value").getOrCreate() 2 spark=SparkSession.builder.appName("boye").getOrCreate() 3 #d = [{"name": "Alice", "age": 12},{"name": "Bob", "age": 53}] 4 #df = spark.createDataFrame(d) 5 df =spark.read.json("file:///usr/local/test/01.json") 6 #df = spark.read.csv(path=path,schema=["id","name"],sep=" ",header=False) 7 df.show() 8 df.createTempView("student") 9 df.createOrReplaceTempView("student") #全局临时表,spark.sql("select avg(age) from global_temp.student").show() 10 spark.newSession().sql("SELECT * FROM global_temp.student").show() 11 df.createGlobalTempView("student") 12 spark.sql("select * from student where age<20").show()
【Example1】
spark=SparkSession.builder.appName("boye").getOrCreate() sc = spark.sparkContext textFile = sc.textFile("file:///usr/local/test/urls") rdd = textFile.map(lambda x:x.split(" ")).filter(lambda x:len(x)==2) df = spark.createDataFrame(rdd,schema=["rowkey","url"]) df.write.format("json").mode("overwrite").save("file:///usr/local/test/outPut") #保存数据 df.write.save(path='/usr/local/test/csv', format='csv', mode='overwrite', sep=' ') #保存为csv文件 df.write.mode("overwrite").saveAsTable("ss") #永久保存
【Example2】
fields = [ ('uid',StringType()), ('url',StringType()), #('age',IntegerType()) ] schema = StructType([StructField(e[0],e[1],True) for e in fields]) df = spark.read.csv(path="/usr/local/test/urls",schema=schema,sep=" ",header=False)