zoukankan      html  css  js  c++  java
  • Spark之json数据处理

    -- 默认情况下,SparkContext对象在spark-shell启动时用namesc初始化。使用以下命令创建SQLContext。
    val sqlcontext = new org.apache.spark.sql.SQLContext(sc)
    -- employee.json-将此文件放在currentscala>指针所在的目录中。
    {
       {"id" : "1201", "name" : "satish", "age" : "25"}
       {"id" : "1202", "name" : "krishna", "age" : "28"}
       {"id" : "1203", "name" : "amith", "age" : "39"}
       {"id" : "1204", "name" : "javed", "age" : "23"}
       {"id" : "1205", "name" : "prudvi", "age" : "23"}
    }
    -- 读取JSON文档namedemployee.json。 数据显示为带有字段id,name和age的表。
    val dfs = sqlContext.read.json("/root/wangbin/employee.json")
    -- 显示数据
    dfs.show()
    -- 查看数据结构
    dfs.printSchema()
    -- 查看某一列
    dfs.select("name").show()
    -- 查找年龄大于23(age> 23)的雇员。
    dfs.filter(dfs("age") > 23).show()
    -- 计算同一年龄的员工人数。
    dfs.groupBy("age").count().show()
  • 相关阅读:
    51Nod1119
    stoi
    坑爹大质数
    USACO07OPEN Cheapest Palindrome
    USACO08NOV Mixed Up Cows
    USACO12FEB Nearby Cows
    SCOI2009 粉刷匠
    USACO16OPEN 248
    POI2014 PTA-Little Bird
    USACO17FEB Why Did the Cow Cross the Road I G
  • 原文地址:https://www.cnblogs.com/wangbin2188/p/8252658.html
Copyright © 2011-2022 走看看