zoukankan      html  css  js  c++  java
  • spark sql 常用语句

    在spark dataFrame数据结构里面使用sql语句查询数据

    (因为是RDD和dataFrame数据是只读的,所以不能做修改,删除操作。)

    首先将文本数据转换为DataFrame数据格式

    有两种将RDD转换为Dataframe的形式

    • 利用反射机制推断RDD模式
    • 使用编程方式定义RDD模式

    这里直接读取json文件并转换为dataFrame结构

    
    from pyspark.sql import SparkSession
    
    spark=SparkSession.builder.getOrCreate()
    df = spark.read.json("/user/hadoop/data.json")
    
    df.createOrReplaceTempView("data")
    dataDF = spark.sql("select title from data where title like '%中国%'").show()
    
    
    1. 查看data表中的所有title
    select * from data 
    
    
    1. 查看data表中,title包含字符串‘中国’
    select title from data where title like '%中国%'
    
    1. 查看data表中,country 的值(去重)
    SELECT DISTINCT country FROM data
    
    1. 查看平均值
    spark.sql("select AVG(id) from data").show()
    
    1. 累加
    spark.sql("select COUNT(id) from data").show()
    
    1. 统计有多少行数据
    spark.sql("select COUNT(*) AS nums from data").show()
    
    1. 查看id=1的第一条数据的name值
    spark.sql("select FIRST(name) AS name from data where id=1").show()
    

    类似使用的函数:LAST MAX MIN SUM

  • 相关阅读:
    docker运行爬虫代码
    python语法之流程控制(if while for)
    python基本数据类型
    python基本运算符
    python用户交互与格式化输出
    jieba模块基本介绍
    wordcloud库基本介绍
    计算机基础之编程语言
    计算机基础
    python入门之流程控制
  • 原文地址:https://www.cnblogs.com/panfengde/p/11434538.html
Copyright © 2011-2022 走看看