1 from pyspark.sql import HiveContext 2 from pyspark import SparkContext,SparkConf 3 import pyspark.sql.functions as F 4 from pyspark.sql import SparkSession 5 6 conf = SparkConf().setAppName("abc") 7 sc = SparkContext(conf=conf) 8 hiveCtx = HiveContext(sc) 9 df = hiveCtx.sql(sql) #用Hive拉数 10 11 df.cache() # 数据载入缓存 12 df.show() # 不加参数默认展示前20行 13 df.count() # 统计行数 14 df.printSchema() # 查看schema 15 df.columns # 查看字段 16 df.dtypes # 查看字段类型 17 df.select('age','name') # 带show才能看到结果 18 df.select(df.age.alias('age_value'),'name').show() #别名 19 df.filter(df.name=='Alice').show() # 筛选 20 df.drop_duplicates() #删除重复记录 21 df.distinct() #去重 22 df.drop('id') #删除列 23 df.na.drop(thresh=2).show() #如果一行至少2个缺失值才删除该行 24 df.na.fill('unknown').show() #对所有列用同一个值填充缺失值 25 df.na.fill({'name':'--', 'age':0}).show() # 不同的列用不同的值填充 26 df.groupby('name').agg(F.max(df['age'])) # 分组计算 27 df.groupby('name').agg(F.max(df['age'])) # join 28 df.describe("age").show() # 描述性统计分析 29 spark.catalog.listTables() #查看temptable 30 31 df.select(df.age+1,'age','name') # 增加列 32 df.select(F.lit(0).alias('id'),'age','name') # 增加列 33 df.unionAll(df2) # 增加行 34 35 #spark = SparkSession.builder.master("local").appName("Word Count").config("spark.some.config.option", "some-value").getOrCreate() 36 spark=SparkSession.builder.appName("boye").getOrCreate() 37 #d = [{"name": "Alice", "age": 12},{"name": "Bob", "age": 53}] 38 #df = spark.createDataFrame(d) 39 df =spark.read.json("file:///usr/local/test/01.json") 40 #df = spark.read.csv(path=path,schema=["id","name"],sep=" ",header=False) 41 df.show() 42 df.createTempView("student") 43 df.createOrReplaceTempView("student") #全局临时表,spark.sql("select avg(age) from global_temp.student").show() 44 spark.newSession().sql("SELECT * FROM global_temp.student").show() 45 df.createGlobalTempView("student") 46 spark.sql("select * from student where age<20").show()